simplify dedup

djsaunde · djsaunde · commit daf5076cd2c9 · 2025-05-29T16:06:20.000Z
diff --git a/src/axolotl/utils/data/rl.py b/src/axolotl/utils/data/rl.py
@@ -92,8 +92,8 @@ def prepare_preference_datasets(cfg: DictDefault) -> tuple[Dataset, Dataset | No
 
     # Apply deduplication if configured
     if cfg.dataset_exact_deduplication:
-        train_dataset, eval_dataset, _ = deduplicate_and_log_datasets(
-            train_dataset=train_dataset, eval_dataset=eval_dataset
+        train_dataset, eval_dataset = deduplicate_and_log_datasets(
+            dataset=train_dataset, other_dataset=eval_dataset
         )
 
     return train_dataset, eval_dataset
diff --git a/src/axolotl/utils/data/sft.py b/src/axolotl/utils/data/sft.py
@@ -568,7 +568,7 @@ def _load_prepare_datasets(
             index=cfg.dataset_shard_idx,
         )
 
-    # Apply deduplication and create train/validation splits based on the split type
+    # Apply deduplication and create train / validation splits based on the split type
     if split == "train":
         train_dataset, eval_dataset = _handle_train_split(dataset, cfg)
     else:
@@ -619,7 +619,7 @@ def _handle_train_split(
 
     # No validation split - apply deduplication if needed and return as train dataset
     if cfg.dataset_exact_deduplication:
-        train_dataset, _, _ = deduplicate_and_log_datasets(train_dataset=dataset)
+        train_dataset, _ = deduplicate_and_log_datasets(dataset=dataset)
     else:
         train_dataset = dataset
 
@@ -631,7 +631,7 @@ def _handle_test_split(
 ) -> tuple[None, Dataset | None]:
     """Handle processing for test split."""
     if cfg.dataset_exact_deduplication:
-        _, eval_dataset, _ = deduplicate_and_log_datasets(eval_dataset=dataset)
+        eval_dataset, _ = deduplicate_and_log_datasets(dataset=dataset)
     else:
         eval_dataset = dataset
 
@@ -651,7 +651,7 @@ def _create_train_validation_split(
 
     # Apply deduplication before splitting if configured
     if cfg.dataset_exact_deduplication:
-        _, _, dataset = deduplicate_and_log_datasets(dataset=dataset)
+        dataset, _ = deduplicate_and_log_datasets(dataset=dataset)
 
     # Create the train/test split
     split_dataset = dataset.train_test_split(
diff --git a/src/axolotl/utils/data/utils.py b/src/axolotl/utils/data/utils.py
@@ -5,6 +5,7 @@
 import hashlib
 import time
 from enum import Enum
+from typing import Callable
 
 import huggingface_hub
 import numpy as np
@@ -29,7 +30,18 @@ class RetryStrategy(Enum):
 
 def retry_on_request_exceptions(
     max_retries=3, delay=1, retry_strategy: RetryStrategy = RetryStrategy.LINEAR
-):
+) -> Callable:
+    """Decorator that retries function calls on specific request exceptions.
+
+    Args:
+        max_retries: Maximum number of retry attempts.
+        delay: Base delay between retries in seconds.
+        retry_strategy: Strategy for calculating retry delays.
+
+    Returns:
+        Decorated function with retry logic.
+    """
+
     def decorator(func):
         @functools.wraps(func)
         def wrapper(*args, **kwargs):  # pylint: disable=inconsistent-return-statements
@@ -58,106 +70,93 @@ def wrapper(*args, **kwargs):  # pylint: disable=inconsistent-return-statements
 
 
 def md5(to_hash: str, encoding: str = "utf-8") -> str:
+    """Generate MD5 hash of a string."""
     try:
         return hashlib.md5(to_hash.encode(encoding), usedforsecurity=False).hexdigest()
     except TypeError:
         return hashlib.md5(to_hash.encode(encoding)).hexdigest()  # nosec
 
 
 def sha256(to_hash: str, encoding: str = "utf-8") -> str:
+    """Generate SHA256 hash of a string."""
     return hashlib.sha256(to_hash.encode(encoding)).hexdigest()
 
 
-def deduplicate_dataset(
-    dataset: Dataset, seen_hashes: dict[str, list[int]], other_dataset: Dataset = None
-) -> Dataset:
-    unique_indices = []
+def _deduplicate_dataset(
+    dataset: Dataset,
+    seen_rows: set[str] | None = None,
+) -> tuple[Dataset, set[str]]:
+    """Remove duplicate rows from a dataset by storing row content directly.
+
+    Args:
+        dataset: Dataset to deduplicate.
+        seen_rows: Set of previously seen row strings (for cross-deduplication).
 
+    Returns:
+        Tuple of deduplicated dataset and the set of seen rows.
+    """
+    if seen_rows is None:
+        seen_rows = set()
+
+    unique_indices = []
     for idx, row in enumerate(dataset):
-        row_hash = sha256(str(row))  # Using SHA256 for collision resistance.
-        if row_hash not in seen_hashes:
-            seen_hashes[row_hash] = [idx]
+        row_str = str(row)
+        if row_str not in seen_rows:
+            seen_rows.add(row_str)
             unique_indices.append(idx)
-        else:
-            # Check for collision by looking up the original dataset indices
-            original_indices = seen_hashes[row_hash]
-            is_duplicate = False
-            for original_idx in original_indices:
-                if (
-                    not idx == original_idx
-                    and original_idx < len(dataset)
-                    and str(dataset[original_idx]) == str(row)
-                ):
-                    is_duplicate = True
-                    break
-                # Check in the other dataset if provided
-                if other_dataset is not None:
-                    if original_idx < len(other_dataset) and str(
-                        other_dataset[original_idx]
-                    ) == str(row):
-                        is_duplicate = True
-                        break
-            if not is_duplicate:
-                seen_hashes[row_hash].append(idx)
-                unique_indices.append(idx)
-                continue
-    return dataset.select(unique_indices)
+
+    return dataset.select(unique_indices), seen_rows
 
 
 def deduplicate_and_log_datasets(
-    *,
-    train_dataset: Dataset | None = None,
-    eval_dataset: Dataset | None = None,
-    dataset: Dataset | None = None,
-) -> tuple[Dataset | None, Dataset | None, Dataset | None]:
-    """Deduplicates train, eval, and an optional dataset if provided, logging original
-    and new sizes.
+    dataset: Dataset,
+    other_dataset: Dataset | None = None,
+    dataset_name: str | None = "train",
+    other_name: str | None = "eval",
+) -> tuple[Dataset, Dataset | None]:
+    """Deduplicate datasets, with optional cross-dataset deduplication.
+
+    Args:
+        dataset: Primary dataset to deduplicate.
+        other_dataset: Optional second dataset to deduplicate against the first.
+        dataset_name: Name for the primary dataset (for logging).
+        other_name: Name for the second dataset (for logging).
 
     Returns:
-        Deduplicated train, eval, and additional datasets.
+        Tuple of (deduplicated_dataset, deduplicated_other_dataset).
     """
-    seen_hashes: dict[str, list[int]] = {}
+    # Deduplicate primary dataset
+    LOG.info(
+        f"Starting deduplication for {dataset_name} dataset. Original size: {len(dataset)}"
+    )
+    dataset, seen_rows = _deduplicate_dataset(dataset)
+    LOG.info(
+        f"Deduplication complete for {dataset_name} dataset. New size: {len(dataset)}"
+    )
 
-    # Handle cases where datasets are None
-    if train_dataset is not None:
+    # Deduplicate second dataset if provided
+    if other_dataset is not None:
         LOG.info(
-            f"Starting deduplication for train dataset. Original size: {len(train_dataset)}"
-        )
-        train_dataset = deduplicate_dataset(
-            dataset=train_dataset, seen_hashes=seen_hashes
+            f"Starting deduplication for {other_name} dataset. Original size: {len(other_dataset)}"
         )
+        other_dataset, _ = _deduplicate_dataset(other_dataset, seen_rows)
         LOG.info(
-            f"Deduplication complete for train dataset. New size: {len(train_dataset)}"
+            f"Deduplication complete for {other_name} dataset. New size: {len(other_dataset)}"
         )
-    else:
-        LOG.info("Train dataset is None. Skipping deduplication.")
 
-    if eval_dataset is not None:
-        LOG.info(
-            f"Starting deduplication for eval dataset. Original size: {len(eval_dataset)}"
-        )
-        eval_dataset = deduplicate_dataset(
-            dataset=eval_dataset, seen_hashes=seen_hashes, other_dataset=train_dataset
-        )
-        LOG.info(
-            f"Deduplication complete for eval dataset. New size: {len(eval_dataset)}"
-        )
-    else:
-        LOG.info("Eval dataset is None. Skipping deduplication.")
+    return dataset, other_dataset
 
-    if dataset is not None and (eval_dataset is None and train_dataset is None):
-        LOG.info(
-            f"Starting deduplication for combined dataset. Original size: {len(dataset)}"
-        )
-        dataset = deduplicate_dataset(dataset=dataset, seen_hashes=seen_hashes)
-        LOG.info(
-            f"Deduplication complete for combined dataset. New size: {len(dataset)}"
-        )
 
-    return train_dataset, eval_dataset, dataset
+def drop_long_seq_in_dataset(dataset: Dataset, cfg: DictDefault) -> Dataset:
+    """Remove sequences longer than configured maximum from dataset.
 
+    Args:
+        dataset: Dataset to filter.
+        cfg: Dictionary mapping `axolotl` config keys to values.
 
-def drop_long_seq_in_dataset(dataset: Dataset, cfg: DictDefault):
+    Returns:
+        Filtered dataset with long sequences removed.
+    """
     if "input_ids" not in dataset.column_names:
         LOG.warning(
             "Dataset does not contain 'input_ids' column. Skip drop long seq. This is "
diff --git a/tests/test_exact_deduplication.py b/tests/test_exact_deduplication.py
@@ -71,35 +71,13 @@ def setUp(self):
         self.expected_dataset = Dataset.from_dict(self.expected_data)
 
     def test_deduplication(self):
-        train_dataset, _, _ = deduplicate_and_log_datasets(train_dataset=self.dataset)
-        _, eval_dataset, _ = deduplicate_and_log_datasets(eval_dataset=self.dataset)
-
-        verify_deduplication(train_dataset, self.expected_dataset, "train_dataset")
-        verify_deduplication(eval_dataset, self.expected_dataset, "eval_dataset")
-
-    def test_datasets_are_none(self):
-        # Test when both datasets are None
-        train_dataset, eval_dataset, _ = deduplicate_and_log_datasets(
-            train_dataset=None, eval_dataset=None
+        train_dataset, _ = deduplicate_and_log_datasets(dataset=self.dataset)
+        eval_dataset, _ = deduplicate_and_log_datasets(
+            dataset=self.dataset, dataset_name="eval"
         )
-        self.assertIsNone(train_dataset, "Expected train_dataset to be None")
-        self.assertIsNone(eval_dataset, "Expected eval_dataset to be None")
 
-    def test_only_train_is_none(self):
-        # Test when only train_dataset is None
-        train_dataset, eval_dataset, _ = deduplicate_and_log_datasets(
-            train_dataset=None, eval_dataset=self.dataset
-        )
-        self.assertIsNone(train_dataset, "Expected train_dataset to be None")
-        verify_deduplication(eval_dataset, self.expected_dataset, "eval_dataset")
-
-    def test_only_eval_is_none(self):
-        # Test when only eval_dataset is None
-        train_dataset, eval_dataset, _ = deduplicate_and_log_datasets(
-            train_dataset=self.dataset, eval_dataset=None
-        )
-        self.assertIsNone(eval_dataset, "Expected eval_dataset to be None")
         verify_deduplication(train_dataset, self.expected_dataset, "train_dataset")
+        verify_deduplication(eval_dataset, self.expected_dataset, "eval_dataset")
 
     def test_exact_duplicates(self):
         # Test when datasets are exact duplicates
@@ -115,8 +93,10 @@ def test_exact_duplicates(self):
         expected_dataset = Dataset.from_dict(expected_data)
 
         # Run deduplication
-        train_dataset, _, _ = deduplicate_and_log_datasets(train_dataset=dataset)
-        _, eval_dataset, _ = deduplicate_and_log_datasets(eval_dataset=dataset)
+        train_dataset, _ = deduplicate_and_log_datasets(dataset=dataset)
+        eval_dataset, _ = deduplicate_and_log_datasets(
+            dataset=dataset, dataset_name="eval"
+        )
 
         verify_deduplication(train_dataset, expected_dataset, "train_dataset")
         verify_deduplication(eval_dataset, expected_dataset, "eval_dataset")
@@ -139,8 +119,10 @@ def test_partial_duplicates(self):
         expected_dataset = Dataset.from_dict(expected_data)
 
         # Run deduplication
-        train_dataset, _, _ = deduplicate_and_log_datasets(train_dataset=dataset)
-        _, eval_dataset, _ = deduplicate_and_log_datasets(eval_dataset=dataset)
+        train_dataset, _ = deduplicate_and_log_datasets(dataset=dataset)
+        eval_dataset, _ = deduplicate_and_log_datasets(
+            dataset=dataset, dataset_name="eval"
+        )
 
         verify_deduplication(train_dataset, expected_dataset, "train_dataset")
         verify_deduplication(eval_dataset, expected_dataset, "eval_dataset")
@@ -169,8 +151,8 @@ def test_combined_duplicates_empty(self):
         expected_dataset_eval = Dataset.from_dict(expected_data_eval)
 
         # Run deduplication
-        train_dataset, eval_dataset, _ = deduplicate_and_log_datasets(
-            train_dataset=dataset, eval_dataset=dataset
+        train_dataset, eval_dataset = deduplicate_and_log_datasets(
+            dataset=dataset, other_dataset=dataset
         )
 
         verify_deduplication(train_dataset, expected_dataset_train, "train_dataset")
@@ -206,8 +188,8 @@ def test_combined_duplicates_one(self):
         expected_dataset_eval = Dataset.from_dict(expected_data_eval)
 
         # Run deduplication
-        train_dataset, eval_dataset, _ = deduplicate_and_log_datasets(
-            train_dataset=dataset_train, eval_dataset=dataset_eval
+        train_dataset, eval_dataset = deduplicate_and_log_datasets(
+            dataset=dataset_train, other_dataset=dataset_eval
         )
 
         verify_deduplication(train_dataset, expected_dataset_train, "train_dataset")
@@ -441,8 +423,8 @@ def setUp(self):
         ),
     )
     def test_deduplication_wrong_collision_train_eval(self, _mock_sha256):
-        dedup_train, dedup_eval, _ = deduplicate_and_log_datasets(
-            train_dataset=self.train_dataset, eval_dataset=self.eval_dataset
+        dedup_train, dedup_eval = deduplicate_and_log_datasets(
+            dataset=self.train_dataset, other_dataset=self.eval_dataset
         )
         self.assertEqual(
             len(dedup_train),
@@ -466,7 +448,7 @@ def test_deduplication_wrong_collision_train_eval(self, _mock_sha256):
         )
 
     def test_deduplication_dataset_only(self):
-        _, _, dedup_dataset = deduplicate_and_log_datasets(dataset=self.dataset)
+        dedup_dataset, _ = deduplicate_and_log_datasets(dataset=self.dataset)
         self.assertEqual(
             len(dedup_dataset), 3, "Dataset should have all original values"
         )

Original file line number	Diff line number	Diff line change
`@@ -92,8 +92,8 @@ def prepare_preference_datasets(cfg: DictDefault) -> tuple[Dataset, Dataset \| No`
`92`	`92`
`93`	`93`	`# Apply deduplication if configured`
`94`	`94`	`if cfg.dataset_exact_deduplication:`
`95`		`- train_dataset, eval_dataset, _ = deduplicate_and_log_datasets(`
`96`		`- train_dataset=train_dataset, eval_dataset=eval_dataset`
	`95`	`+ train_dataset, eval_dataset = deduplicate_and_log_datasets(`
	`96`	`+ dataset=train_dataset, other_dataset=eval_dataset`
`97`	`97`	`)`
`98`	`98`
`99`	`99`	`return train_dataset, eval_dataset`