elixir-nx · jonatanklosko · Dec 14, 2023 · Dec 14, 2023 · jonatanklosko · Dec 14, 2023
diff --git a/lib/bumblebee/utils/tokenizers.ex b/lib/bumblebee/utils/tokenizers.ex
@@ -21,55 +21,47 @@ defmodule Bumblebee.Utils.Tokenizers do
 
     input = List.wrap(input)
 
+    tokenizer =
+      if length = opts[:length] do
+        upper_bound_length = length |> List.wrap() |> Enum.max()
+
+        Tokenizer.set_truncation(tokenizer,
+          max_length: upper_bound_length,
+          direction: opts[:truncate_direction]
+        )
+      else
+        tokenizer
+      end
+
     {:ok, encodings} =
       Tokenizer.encode_batch(tokenizer, input, add_special_tokens: opts[:add_special_tokens])
 
     length = opts[:length]
 
-    {pad_length, truncate_length} =
+    pad_length =
       if is_number(length) do
-        {length, length}
+        length
       else
         max_length =
           encodings
           |> Enum.map(&Encoding.n_tokens/1)
           |> Enum.max()
 
         case length do
-          nil ->
-            {max_length, nil}
-
-          lengths when is_list(lengths) ->
-            bounding_length = find_bounding_length(max_length, lengths)
-            {bounding_length, bounding_length}
+          nil -> max_length
+          lengths when is_list(lengths) -> find_bounding_length(max_length, lengths)
         end
       end
 
     pad_id = Tokenizer.token_to_id(tokenizer, pad_token)
 
     encodings =
       Enum.map(encodings, fn encoding ->
-        transformations = [
-          Encoding.Transformation.pad(pad_length,
-            pad_id: pad_id,
-            pad_token: pad_token,
-            direction: opts[:pad_direction]
-          )
-        ]
-
-        transformations =
-          transformations ++
-            if truncate_length do
-              [
-                Encoding.Transformation.truncate(truncate_length,
-                  direction: opts[:truncate_direction]
-                )
-              ]
-            else
-              []
-            end
-
-        Encoding.transform(encoding, transformations)
+        Encoding.pad(encoding, pad_length,
+          pad_id: pad_id,
+          pad_token: pad_token,
+          direction: opts[:pad_direction]
+        )
       end)
 
     input_ids = encodings |> Enum.map(&Encoding.get_u32_ids/1) |> u32_binaries_to_tensor()

diff --git a/test/bumblebee/text/albert_tokenizer_test.exs b/test/bumblebee/text/albert_tokenizer_test.exs
@@ -50,7 +50,7 @@ defmodule Bumblebee.Text.AlbertTokenizerTest do
       Nx.tensor([
         [2, 4310, 111, 3, 0, 0],
         [2, 4310, 111, 748, 3, 0],
-        [2, 4310, 111, 748, 19674, 6582]
+        [2, 4310, 111, 748, 19674, 3]
       ])
     )
 

diff --git a/test/bumblebee/text/bert_tokenizer_test.exs b/test/bumblebee/text/bert_tokenizer_test.exs
@@ -43,11 +43,7 @@ defmodule Bumblebee.Text.BertTokenizerTest do
     assert {:ok, tokenizer} = Bumblebee.load_tokenizer({:hf, "bert-base-cased"})
 
     inputs =
-      Bumblebee.apply_tokenizer(
-        tokenizer,
-        [
-          "Test sentence with [MASK]."
-        ],
+      Bumblebee.apply_tokenizer(tokenizer, ["Test sentence with [MASK]."],
         return_special_tokens_mask: true
       )
 
@@ -58,13 +54,7 @@ defmodule Bumblebee.Text.BertTokenizerTest do
     assert {:ok, tokenizer} = Bumblebee.load_tokenizer({:hf, "bert-base-cased"})
 
     inputs =
-      Bumblebee.apply_tokenizer(
-        tokenizer,
-        [
-          "Test sentence with [MASK]."
-        ],
-        return_offsets: true
-      )
+      Bumblebee.apply_tokenizer(tokenizer, ["Test sentence with [MASK]."], return_offsets: true)
 
     assert_equal(inputs["start_offsets"], Nx.tensor([[0, 0, 5, 14, 19, 25, 0]]))
     assert_equal(inputs["end_offsets"], Nx.tensor([[0, 4, 13, 18, 25, 26, 0]]))
@@ -84,4 +74,13 @@ defmodule Bumblebee.Text.BertTokenizerTest do
 
     assert {1, 16} = Nx.shape(inputs["input_ids"])
   end
+
+  test "adds template tokens when the sequence is truncated" do
+    assert {:ok, tokenizer} = Bumblebee.load_tokenizer({:hf, "bert-base-cased"})
+
+    inputs = Bumblebee.apply_tokenizer(tokenizer, ["This is a long test sentence."], length: 5)
+
+    assert_equal(inputs["input_ids"], Nx.tensor([[101, 1188, 1110, 170, 102]]))
+    assert_equal(inputs["attention_mask"], Nx.tensor([[1, 1, 1, 1, 1]]))
+  end
 end