unhappychoice
diff --git a/‎src/extractor/core/extractor.rs‎
Lines changed: 6 additions & 2 deletions b/‎src/extractor/core/extractor.rs‎
Lines changed: 6 additions & 2 deletions
diff --git a/‎tests/integration/languages/snapshots/r#mod__integration__languages__extractor__test_c_complex_algorithm_extraction.snap‎
Lines changed: 78 additions & 9 deletions b/‎tests/integration/languages/snapshots/r#mod__integration__languages__extractor__test_c_complex_algorithm_extraction.snap‎
Lines changed: 78 additions & 9 deletions
diff --git a/‎tests/integration/languages/snapshots/r#mod__integration__languages__extractor__test_cpp_complex_algorithm_extraction.snap‎
Lines changed: 88 additions & 10 deletions b/‎tests/integration/languages/snapshots/r#mod__integration__languages__extractor__test_cpp_complex_algorithm_extraction.snap‎
Lines changed: 88 additions & 10 deletions
@@ -122,9 +122,13 @@ impl CommonExtractor {
                 large_chunk.content.as_bytes(),
             );
 
-            let chunk_comment_ranges =
-                Self::extract_comment_ranges(&chunk_tree, &large_chunk.content, language, &[])?;
             let chunk_byte_to_char_cache = Self::build_byte_to_char_cache(&large_chunk.content);
+            let chunk_comment_ranges = Self::extract_comment_ranges(
+                &chunk_tree,
+                &large_chunk.content,
+                language,
+                &chunk_byte_to_char_cache,
+            )?;
 
             while let Some(match_) = chunk_matches.next() {
                 for capture in match_.captures {
 
@@ -170,7 +170,20 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Loop",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          435,
+          475
+        ],
+        [
+          547,
+          555
+        ],
+        [
+          727,
+          750
+        ]
+      ],
       "content": "    for (size_t i = 0; i < input_size; i++) {\n        int value = input[i];\n        ProcessedItem item;\n        item.id = (int)i;\n\n        if (value > threshold) {\n            int transformed = value * 2;\n            item.value = transformed;\n\n            if (transformed > threshold * 3) {\n                strcpy(item.category, \"HIGH\");\n            } else {\n                strcpy(item.category, \"MEDIUM\");\n            }\n\n            // Additional processing for high values\n            if (transformed > 100) {\n                item.value += 10; // bonus\n            }\n        } else if (value > 0) {\n            item.value = value + threshold;\n            strcpy(item.category, \"LOW\");\n        } else {\n            continue; // skip negative values\n        }\n\n        results[result_count++] = item;\n    }",
       "end_line": 54,
       "language": "c",
@@ -190,7 +203,16 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "CodeBlock",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          304,
+          344
+        ],
+        [
+          416,
+          424
+        ]
+      ],
       "content": "        if (value > threshold) {\n            int transformed = value * 2;\n            item.value = transformed;\n\n            if (transformed > threshold * 3) {\n                strcpy(item.category, \"HIGH\");\n            } else {\n                strcpy(item.category, \"MEDIUM\");\n            }\n\n            // Additional processing for high values\n            if (transformed > 100) {\n                item.value += 10; // bonus\n            }\n        }",
       "end_line": 46,
       "language": "c",
@@ -200,7 +222,20 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          304,
+          344
+        ],
+        [
+          416,
+          424
+        ],
+        [
+          596,
+          619
+        ]
+      ],
       "content": "        if (value > threshold) {\n            int transformed = value * 2;\n            item.value = transformed;\n\n            if (transformed > threshold * 3) {\n                strcpy(item.category, \"HIGH\");\n            } else {\n                strcpy(item.category, \"MEDIUM\");\n            }\n\n            // Additional processing for high values\n            if (transformed > 100) {\n                item.value += 10; // bonus\n            }\n        } else if (value > 0) {\n            item.value = value + threshold;\n            strcpy(item.category, \"LOW\");\n        } else {\n            continue; // skip negative values\n        }",
       "end_line": 51,
       "language": "c",
@@ -250,7 +285,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          71,
+          79
+        ]
+      ],
       "content": "            if (transformed > 100) {\n                item.value += 10; // bonus\n            }",
       "end_line": 45,
       "language": "c",
@@ -270,7 +310,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          157,
+          180
+        ]
+      ],
       "content": "        } else if (value > 0) {\n            item.value = value + threshold;\n            strcpy(item.category, \"LOW\");\n        } else {\n            continue; // skip negative values\n        }",
       "end_line": 51,
       "language": "c",
@@ -280,7 +325,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "CodeBlock",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          39,
+          62
+        ]
+      ],
       "content": "        } else {\n            continue; // skip negative values\n        }",
       "end_line": 51,
       "language": "c",
@@ -290,7 +340,16 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          36,
+          71
+        ],
+        [
+          254,
+          302
+        ]
+      ],
       "content": "    if (result_count > 0) {\n        // Calculate average for validation\n        int total = 0;\n        for (size_t i = 0; i < result_count; i++) {\n            total += results[i].value;\n        }\n        int average = total / (int)result_count;\n\n        // Add average as metadata (simplified approach)\n        printf(\"Average processed value: %d\\n\", average);\n    }",
       "end_line": 67,
       "language": "c",
@@ -387,7 +446,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Loop",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          541,
+          574
+        ]
+      ],
       "content": "    for (size_t i = 0; i < count; i++) {\n        ProcessedItem *item = &items[i];\n        int category_index = -1;\n\n        if (strcmp(item->category, \"LOW\") == 0) {\n            category_index = 0;\n        } else if (strcmp(item->category, \"MEDIUM\") == 0) {\n            category_index = 1;\n        } else if (strcmp(item->category, \"HIGH\") == 0) {\n            category_index = 2;\n        }\n\n        if (category_index >= 0) {\n            category_counts[category_index]++;\n            value_sums[category_index] += item->value;\n\n            // Time-based analysis simulation\n            if (item->value > 1000) {\n                printf(\"High value item found: %d\\n\", item->value);\n            }\n        }\n    }",
       "end_line": 102,
       "language": "c",
@@ -457,7 +521,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          150,
+          183
+        ]
+      ],
       "content": "        if (category_index >= 0) {\n            category_counts[category_index]++;\n            value_sums[category_index] += item->value;\n\n            // Time-based analysis simulation\n            if (item->value > 1000) {\n                printf(\"High value item found: %d\\n\", item->value);\n            }\n        }",
       "end_line": 101,
       "language": "c",
 
@@ -252,7 +252,20 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Loop",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          542,
+          582
+        ],
+        [
+          713,
+          721
+        ],
+        [
+          908,
+          931
+        ]
+      ],
       "content": "        for (size_t i = 0; i < input.size(); ++i) {\n            const T& value = input[i];\n            std::string cache_key = \"item_\" + std::to_string(i);\n\n            auto cache_it = cache.find(cache_key);\n            if (cache_it != cache.end()) {\n                results.push_back(cache_it->second);\n                continue;\n            }\n\n            T processed_value;\n            if (value > static_cast<T>(threshold)) {\n                processed_value = value * static_cast<T>(2);\n                processed_count++;\n\n                // Additional processing for high values\n                if (processed_value > static_cast<T>(threshold * 3)) {\n                    processed_value += static_cast<T>(10); // bonus\n                }\n            } else if (value > static_cast<T>(0)) {\n                processed_value = value + static_cast<T>(threshold);\n            } else {\n                continue; // skip negative values\n            }\n\n            cache[cache_key] = processed_value;\n            processing_log.push_back(processed_value);\n            results.push_back(processed_value);\n        }",
       "end_line": 52,
       "language": "cpp",
@@ -292,7 +305,16 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "CodeBlock",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          166,
+          206
+        ],
+        [
+          337,
+          345
+        ]
+      ],
       "content": "            if (value > static_cast<T>(threshold)) {\n                processed_value = value * static_cast<T>(2);\n                processed_count++;\n\n                // Additional processing for high values\n                if (processed_value > static_cast<T>(threshold * 3)) {\n                    processed_value += static_cast<T>(10); // bonus\n                }\n            }",
       "end_line": 43,
       "language": "cpp",
@@ -302,7 +324,20 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          166,
+          206
+        ],
+        [
+          337,
+          345
+        ],
+        [
+          532,
+          555
+        ]
+      ],
       "content": "            if (value > static_cast<T>(threshold)) {\n                processed_value = value * static_cast<T>(2);\n                processed_count++;\n\n                // Additional processing for high values\n                if (processed_value > static_cast<T>(threshold * 3)) {\n                    processed_value += static_cast<T>(10); // bonus\n                }\n            } else if (value > static_cast<T>(0)) {\n                processed_value = value + static_cast<T>(threshold);\n            } else {\n                continue; // skip negative values\n            }",
       "end_line": 47,
       "language": "cpp",
@@ -312,7 +347,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          130,
+          138
+        ]
+      ],
       "content": "                if (processed_value > static_cast<T>(threshold * 3)) {\n                    processed_value += static_cast<T>(10); // bonus\n                }",
       "end_line": 42,
       "language": "cpp",
@@ -332,7 +372,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          168,
+          191
+        ]
+      ],
       "content": "            } else if (value > static_cast<T>(0)) {\n                processed_value = value + static_cast<T>(threshold);\n            } else {\n                continue; // skip negative values\n            }",
       "end_line": 47,
       "language": "cpp",
@@ -342,7 +387,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "CodeBlock",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          47,
+          70
+        ]
+      ],
       "content": "            } else {\n                continue; // skip negative values\n            }",
       "end_line": 47,
       "language": "cpp",
@@ -352,7 +402,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Conditional",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          202,
+          236
+        ]
+      ],
       "content": "        if (processed_count > 0) {\n            T total = std::accumulate(results.begin(), results.end(), static_cast<T>(0));\n            T average = total / static_cast<T>(results.size());\n\n            // Add average to log for analysis\n            processing_log.push_back(average);\n        }",
       "end_line": 61,
       "language": "cpp",
@@ -415,7 +470,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "CodeBlock",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          395,
+          426
+        ]
+      ],
       "content": "        for (const auto& item : data) {\n            std::string category;\n\n            if (item > static_cast<T>(threshold * 2)) {\n                category = \"HIGH\";\n            } else if (item > static_cast<T>(threshold)) {\n                category = \"MEDIUM\";\n            } else {\n                category = \"LOW\";\n            }\n\n            categories[category].push_back(item);\n\n            // Additional pattern detection\n            if (item > static_cast<T>(1000)) {\n                categories[\"PREMIUM\"].push_back(item);\n            }\n        }",
       "end_line": 88,
       "language": "cpp",
@@ -589,7 +649,20 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "CodeBlock",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          96,
+          134
+        ],
+        [
+          259,
+          300
+        ],
+        [
+          599,
+          633
+        ]
+      ],
       "content": "        for (const auto& text : input) {\n            std::string processed = text;\n\n            // Pattern matching and transformation\n            size_t pos = 0;\n            while ((pos = processed.find(pattern, pos)) != std::string::npos) {\n                // Replace pattern with uppercase version\n                std::string replacement = pattern;\n                std::transform(replacement.begin(), replacement.end(), replacement.begin(), ::toupper);\n                processed.replace(pos, pattern.length(), replacement);\n                pos += replacement.length();\n            }\n\n            // Additional text transformations\n            if (processed.length() > 50) {\n                processed = processed.substr(0, 47) + \"...\";\n            }\n\n            if (!processed.empty()) {\n                results.push_back(processed);\n            }\n        }",
       "end_line": 133,
       "language": "cpp",
@@ -619,7 +692,12 @@ expression: "serde_json::to_string_pretty(&snapshot_data).unwrap()"
     },
     {
       "chunk_type": "Loop",
-      "comment_ranges": [],
+      "comment_ranges": [
+        [
+          96,
+          137
+        ]
+      ],
       "content": "            while ((pos = processed.find(pattern, pos)) != std::string::npos) {\n                // Replace pattern with uppercase version\n                std::string replacement = pattern;\n                std::transform(replacement.begin(), replacement.end(), replacement.begin(), ::toupper);\n                processed.replace(pos, pattern.length(), replacement);\n                pos += replacement.length();\n            }",
       "end_line": 123,
       "language": "cpp",