add log_filter toolset to filter out unnecessary logs

mainred · mainred · commit 5bcea394fced · 2025-06-10T11:45:29.000Z
diff --git a/holmes/plugins/toolsets/__init__.py b/holmes/plugins/toolsets/__init__.py
@@ -3,32 +3,31 @@
 import os.path
 from typing import List, Optional
 
+import yaml  # type: ignore
+
 from holmes.core.supabase_dal import SupabaseDal
+from holmes.core.tools import Toolset, YAMLToolset
+from holmes.plugins.toolsets.bash.bash_toolset import BashExecutorToolset
 from holmes.plugins.toolsets.coralogix.toolset_coralogix_logs import (
     CoralogixLogsToolset,
 )
+from holmes.plugins.toolsets.datadog import DatadogToolset
 from holmes.plugins.toolsets.datetime import DatetimeToolset
-from holmes.plugins.toolsets.bash.bash_toolset import BashExecutorToolset
-from holmes.plugins.toolsets.opensearch.opensearch_logs import OpenSearchLogsToolset
-from holmes.plugins.toolsets.opensearch.opensearch_traces import OpenSearchTracesToolset
-from holmes.plugins.toolsets.robusta.robusta import RobustaToolset
+from holmes.plugins.toolsets.git import GitToolset
+from holmes.plugins.toolsets.grafana.toolset_grafana import GrafanaToolset
 from holmes.plugins.toolsets.grafana.toolset_grafana_loki import GrafanaLokiToolset
 from holmes.plugins.toolsets.grafana.toolset_grafana_tempo import GrafanaTempoToolset
-from holmes.plugins.toolsets.grafana.toolset_grafana import GrafanaToolset
-
 from holmes.plugins.toolsets.internet.internet import InternetToolset
 from holmes.plugins.toolsets.internet.notion import NotionToolset
+from holmes.plugins.toolsets.kafka import KafkaToolset
+from holmes.plugins.toolsets.log_filter import LogFilterToolset
 from holmes.plugins.toolsets.newrelic import NewRelicToolset
-from holmes.plugins.toolsets.datadog import DatadogToolset
-from holmes.plugins.toolsets.prometheus.prometheus import PrometheusToolset
 from holmes.plugins.toolsets.opensearch.opensearch import OpenSearchToolset
-from holmes.plugins.toolsets.kafka import KafkaToolset
+from holmes.plugins.toolsets.opensearch.opensearch_logs import OpenSearchLogsToolset
+from holmes.plugins.toolsets.opensearch.opensearch_traces import OpenSearchTracesToolset
+from holmes.plugins.toolsets.prometheus.prometheus import PrometheusToolset
 from holmes.plugins.toolsets.rabbitmq.toolset_rabbitmq import RabbitMQToolset
-from holmes.plugins.toolsets.git import GitToolset
-
-from holmes.core.tools import Toolset, YAMLToolset
-import yaml  # type: ignore
-
+from holmes.plugins.toolsets.robusta.robusta import RobustaToolset
 
 THIS_DIR = os.path.abspath(os.path.dirname(__file__))
 
@@ -76,6 +75,7 @@ def load_python_toolsets(dal: Optional[SupabaseDal]) -> List[Toolset]:
         RabbitMQToolset(),
         GitToolset(),
         BashExecutorToolset(),
+        LogFilterToolset(),
     ]
 
     return toolsets
diff --git a/holmes/plugins/toolsets/kubernetes_logs.yaml b/holmes/plugins/toolsets/kubernetes_logs.yaml
@@ -40,3 +40,7 @@ toolsets:
       - name: "kubectl_logs_all_containers_grep"
         description: "Search for a specific term in the logs of a single Kubernetes pod across all of its containers. Only provide a pod name, not a deployment or other resource."
         command: "kubectl logs {{pod_name}} -n {{ namespace }} --all-containers | grep {{ search_term }}"
+
+      - name: "kubectl_logs_grep_no_match"
+        description: "Filter out lines matching a specific regular expression from the logs of a single Kubernetes pod. Only provide a pod name, not a deployment or other resource."
+        command: "kubectl logs {{ pod_name }} -n {{ namespace }} | grep -v -P {{ pod_log_filter }}"
diff --git a/holmes/plugins/toolsets/log_filter.py b/holmes/plugins/toolsets/log_filter.py
@@ -0,0 +1,159 @@
+import logging
+import os
+from typing import Any, Dict, Tuple
+
+import requests  # type: ignore
+import yaml
+from pydantic import BaseModel
+
+from holmes.core.tools import (
+    CallablePrerequisite,
+    StructuredToolResult,
+    Tool,
+    ToolParameter,
+    ToolResultStatus,
+    Toolset,
+    ToolsetTag,
+)
+
+"""
+Example of the content of the log filter config file:
+```yaml
+log_filter:
+  - label: k8s-app=kube-dns
+    filters:
+      - "[WARNING] No files matching import glob pattern"
+```
+"""
+LOG_FILTER_CONFIG_PATH = "LOG_FILTER"
+
+
+class LogFilter(BaseModel):
+    label: str
+    filters: list[str]
+
+
+class LogFilterConfig(BaseModel):
+    log_filter: list[LogFilter]
+
+
+class LogFilterToolset(Toolset):
+    def __init__(self):
+        super().__init__(
+            name="log_filter",
+            enabled=True,
+            description="A toolset to return a pod log filter based on pod labels.",
+            docs_url="https://docs.robusta.dev/master/configuration/holmesgpt/toolsets/log_filter.html",
+            icon_url="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3b/Filter_icon.svg/1200px-Filter_icon.svg.png",
+            prerequisites=[CallablePrerequisite(callable=self.prerequisites_callable)],
+            tools=[LogFilterTool()],
+            tags=[ToolsetTag.CLI],
+            is_default=True,
+        )
+
+    def prerequisites_callable(self, config: dict[str, Any]) -> Tuple[bool, str]:
+        log_filter_config_path = os.environ.get(LOG_FILTER_CONFIG_PATH, None)
+        if not log_filter_config_path:
+            return True, ""
+
+        try:
+            log_filter_str = load_log_filter_config(log_filter_config_path)
+            log_filter = yaml.safe_load(log_filter_str)
+            LogFilterConfig.model_validate(log_filter)
+        except Exception as e:
+            return (
+                False,
+                f"Log filter config from {log_filter_config_path} is not valid: {str(e)}",
+            )
+        return True, ""
+
+    def get_example_config(self) -> Dict[str, Any]:
+        return {}
+
+
+class LogFilterTool(Tool):
+    def __init__(self):
+        super().__init__(
+            name="log_filter",
+            description="Return logs filter Perl-based regular expression based on the pod label.",
+            parameters={
+                "label": ToolParameter(
+                    type="string",
+                    description="The pod label to filter logs by. For example, 'app=my-app'.",
+                ),
+            },
+        )
+
+    def get_parameterized_one_liner(self, params) -> str:
+        return f"logs filter for pod label {params.get('label')}"
+
+    @staticmethod
+    def get_default_log_filter(params: dict) -> StructuredToolResult:
+        """Returns a default log filter regex pattern filter out info level log"""
+        default_log_filter = "(^I\d{4})|(level=info)"
+        return StructuredToolResult(
+            status=ToolResultStatus.SUCCESS,
+            data=default_log_filter,
+            params=params,
+        )
+
+    @staticmethod
+    def label_in_labels(key_value: str, log_filter: str) -> bool:
+        """Check if a key=value string is in a list of labels joined by comma."""
+        label_list = log_filter.split(",")
+        return any(item == key_value for item in label_list)
+
+    def _invoke(self, params: Dict[str, Any]) -> StructuredToolResult:
+        # _invoke returns default log filter if no matching label is found
+
+        log_filter_config_path = os.environ.get(LOG_FILTER_CONFIG_PATH, None)
+        if not log_filter_config_path:
+            return self.get_default_log_filter(params)
+
+        if params.get("label") is None:
+            logging.info("label is not provided. Returning default log filter.")
+            return self.get_default_log_filter(params)
+
+        try:
+            log_filter_str = load_log_filter_config(log_filter_config_path)
+            log_filter_dict = yaml.safe_load(log_filter_str)
+
+            log_filters = LogFilterConfig(**log_filter_dict)
+
+            for log_filter in log_filters.log_filter:
+                if self.label_in_labels(params["label"], log_filter.label):
+                    combined_filter = "|".join(log_filter.filters)
+                    return StructuredToolResult(
+                        status=ToolResultStatus.SUCCESS,
+                        data=f"({combined_filter})",
+                        params=params,
+                    )
+            logging.info(
+                f"label '{params['label']}' not found in log filter config. Returning default log filter."
+            )
+        except Exception as e:
+            logging.error(
+                f"Error processing log filter config: {str(e)}. Returning default log filter."
+            )
+        return self.get_default_log_filter(params)
+
+
+def load_log_filter_config(file_path: str) -> str:
+    """Reads a file, either local or remote.
+
+    Args:
+        file_path: The path to the file, can be a local path or a URL.
+
+    Returns:
+        The content of the file as a string, or None if an error occurs.
+    """
+    if file_path.startswith("http://") or file_path.startswith("https://"):
+        # Handle remote file (URL)
+        response = requests.get(file_path)
+        response.raise_for_status()  # Raise an exception for bad status codes
+        return response.text
+    # Handle local file
+    if os.path.exists(file_path) and os.path.isfile(file_path):
+        with open(file_path, "r") as file:
+            return file.read()
+    raise FileNotFoundError(f"File not found: {file_path}")