Cleanup normalization support

tarekgh · tarekgh · commit d48b32d6cd5e · 2024-02-22T16:45:54.000-08:00
diff --git a/src/Microsoft.ML.Tokenizers/Normalizer/LowerCaseNormalizer.cs b/src/Microsoft.ML.Tokenizers/Normalizer/LowerCaseNormalizer.cs
@@ -21,6 +21,6 @@ public LowerCaseNormalizer() { }
         /// </summary>
         /// <param name="original">The original string to normalize to lowercase form.</param>
         /// <returns>The lower-cased normalized string.</returns>
-        public override NormalizedString Normalize(string original) => new NormalizedString(original, original.ToLowerInvariant(), normalizedToOriginalMapping: null, isOneToOneMapping: true);
+        public override string Normalize(string original) => original.ToLowerInvariant();
     }
 }
diff --git a/src/Microsoft.ML.Tokenizers/Normalizer/NormalizedString.cs b/src/Microsoft.ML.Tokenizers/Normalizer/NormalizedString.cs
diff --git a/src/Microsoft.ML.Tokenizers/Normalizer/Normalizer.cs b/src/Microsoft.ML.Tokenizers/Normalizer/Normalizer.cs
@@ -15,7 +15,7 @@ public abstract class Normalizer
         /// Process the original string to modify it and obtain a normalized string.
         /// </summary>
         /// <param name="original">The original string to normalize.</param>
-        /// <returns>The normalized string along with the mapping to the original string.</returns>
-        public abstract NormalizedString Normalize(string original);
+        /// <returns>The normalized string.</returns>
+        public abstract string Normalize(string original);
     }
 }
diff --git a/src/Microsoft.ML.Tokenizers/Normalizer/UpperCaseNormalizer.cs b/src/Microsoft.ML.Tokenizers/Normalizer/UpperCaseNormalizer.cs
@@ -21,6 +21,6 @@ public UpperCaseNormalizer() { }
         /// </summary>
         /// <param name="original">The original string to normalize to uppercase form.</param>
         /// <returns>The upper-cased normalized string.</returns>
-        public override NormalizedString Normalize(string original) => new NormalizedString(original, original.ToUpperInvariant(), normalizedToOriginalMapping: null, isOneToOneMapping: true);
+        public override string Normalize(string original) => original.ToUpperInvariant();
     }
 }
diff --git a/src/Microsoft.ML.Tokenizers/Tokenizer.cs b/src/Microsoft.ML.Tokenizers/Tokenizer.cs
@@ -67,56 +67,20 @@ public EncodingResult Encode(string text, bool considerSpecialTokens = true)
                 throw new ArgumentNullException(nameof(text));
             }
 
-            string normalized;
-            NormalizedString normalizedString = default;
-
+            string normalized = Normalizer is null ? text : Normalizer.Normalize(text);
             bool offsetsMappedToOriginal = true;
-            if (Normalizer is not null)
-            {
-                normalizedString = Normalizer.Normalize(text);
-                normalized = normalizedString.Normalized;
-
-                offsetsMappedToOriginal = normalizedString.CanMapToOriginal;
-            }
-            else
-            {
-                normalized = text;
-            }
 
             EncodingResult encoding = new(text, normalized, PreTokenizer.PreTokenize(normalized, considerSpecialTokens), offsetsMappedToOriginal);
 
-            if (Normalizer is null || !normalizedString.CanMapToOriginal || normalizedString.IsOneToOneMapping)
+            foreach (Split split in encoding.Splits)
             {
-                // Optimize the case we don't have to map the offsets.
-                foreach (Split split in encoding.Splits)
+                IReadOnlyList<Token> tokens = Model.Encode(split.TokenString, split.IsSpecialToken);
+                foreach (Token token in tokens)
                 {
-                    IReadOnlyList<Token> tokens = Model.Encode(split.TokenString, split.IsSpecialToken);
-                    foreach (Token token in tokens)
-                    {
-                        token.Offset = (token.Offset.Index + split.Offset.Index, token.Offset.Length);
-                    }
-
-                    encoding.AddTokens(tokens);
+                    token.Offset = (token.Offset.Index + split.Offset.Index, token.Offset.Length);
                 }
-            }
-            else
-            {
-                Debug.Assert(normalizedString.NormalizedToOriginalMapping is not null);
-
-                foreach (Split split in encoding.Splits)
-                {
-                    IReadOnlyList<Token> tokens = Model.Encode(split.TokenString, split.IsSpecialToken);
-                    foreach (Token token in tokens)
-                    {
-                        int index = normalizedString.NormalizedToOriginalMapping![token.Offset.Index + split.Offset.Index];
 
-                        Debug.Assert(index >= 0);
-
-                        token.Offset = (index, token.Offset.Length);
-                    }
-
-                    encoding.AddTokens(tokens);
-                }
+                encoding.AddTokens(tokens);
             }
 
             return encoding;
@@ -135,7 +99,7 @@ public IReadOnlyList<int> EncodeToIds(string text, bool considerSpecialTokens =
                 throw new ArgumentNullException(nameof(text));
             }
 
-            string normalized = Normalizer is not null ? Normalizer.Normalize(text).Normalized : text;
+            string normalized = Normalizer is not null ? Normalizer.Normalize(text) : text;
             List<int> idsList = new();
 
             foreach (Split split in PreTokenizer.PreTokenize(normalized, considerSpecialTokens))
@@ -161,7 +125,7 @@ public int CountTokens(string text, bool considerSpecialTokens = true)
                 throw new ArgumentNullException(nameof(text));
             }
 
-            string normalized = Normalizer is not null ? Normalizer.Normalize(text).Normalized : text;
+            string normalized = Normalizer is not null ? Normalizer.Normalize(text) : text;
 
             int idsCount = 0;
             foreach (Split split in PreTokenizer.PreTokenize(normalized, considerSpecialTokens))
diff --git a/test/Microsoft.ML.Tokenizers.Tests/NormalizerTests.cs b/test/Microsoft.ML.Tokenizers.Tests/NormalizerTests.cs
@@ -22,78 +22,59 @@ public static IEnumerable<object?[]> NormalizerData
                     new LowerCaseNormalizer(),
                     "How Are You Doing?",
                     "how are you doing?",
-                    true,   // IsOneToOneMapping
-                    true,   // CanMapToOriginal
-                    null,   // NormalizedToOriginalMapping
                 };
 
                 yield return new object?[]
                 {
                     new UpperCaseNormalizer(),
                     "How Are You Doing?",
                     "HOW ARE YOU DOING?",
-                    true,   // IsOneToOneMapping
-                    true,   // CanMapToOriginal
-                    null,   // NormalizedToOriginalMapping
                 };
 
                 yield return new object?[]
                 {
                     new RemoveQuotesNormalizer(),
                     "This is already normalized string",
                     "This is already normalized string",
-                    true,   // IsOneToOneMapping
-                    true,   // CanMapToOriginal
-                    null,   // NormalizedToOriginalMapping
                 };
 
                 yield return new object?[]
                 {
                     new RemoveQuotesNormalizer(),
                     "String \"to\" normalize",
                     "String to normalize",
-                    false,   // IsOneToOneMapping
-                    true,    // CanMapToOriginal
-                    new int[] { 0, 1, 2, 3, 4, 5, 6, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 },    // NormalizedToOriginalMapping
                 };
 
                 yield return new object?[]
                 {
                     new UnicodeNormalizer(NormalizationForm.FormKD),
                     "\uFB01", // Composed form of the character 'fi' one character
                     "fi", // normalized in 2 characters 'f' and 'i'
-                    false,   // IsOneToOneMapping
-                    false,    // CanMapToOriginal
-                    null,    // NormalizedToOriginalMapping
                 };
             }
         }
 
         [Theory]
         [MemberData(nameof(NormalizerData))]
-        public void TestNormalizer(Normalizer normalizer, string sentence, string normalized, bool isOneToOneMapping, bool canMapToOriginal, int[] normalizedToOriginalMapping)
+        public void TestNormalizer(Normalizer normalizer, string text, string normalized)
         {
-            NormalizedString ns = normalizer.Normalize(sentence);
-            Assert.Equal(normalized, ns.Normalized);
-            Assert.Equal(isOneToOneMapping, ns.IsOneToOneMapping);
-            Assert.Equal(canMapToOriginal, ns.CanMapToOriginal);
-            Assert.Equal(normalizedToOriginalMapping, ns.NormalizedToOriginalMapping);
+            string normalizedText = normalizer.Normalize(text);
+            Assert.Equal(normalized, normalizedText);
 
             Tokenizer tokenizer = new Tokenizer(BpeTests.CreateEmptyBpe(), WhiteSpace.Instance, normalizer);
-            EncodingResult encoding = tokenizer.Encode(sentence);
-            Assert.Equal(canMapToOriginal, encoding.OffsetsMappedToOriginalString);
-            Assert.Equal(sentence, encoding.OriginalString);
+            EncodingResult encoding = tokenizer.Encode(text);
+            Assert.Equal(text, encoding.OriginalString);
             Assert.Equal(normalized, encoding.NormalizedString);
         }
 
         public class RemoveQuotesNormalizer : Normalizer
         {
-            public override NormalizedString Normalize(string original)
+            public override string Normalize(string original)
             {
                 int index = original.IndexOf('"');
                 if (index <= 0)
                 {
-                    return new NormalizedString(original, original, null, true);
+                    return original;
                 }
 
                 StringBuilder sb = new StringBuilder(original.Length);
@@ -128,7 +109,7 @@ public override NormalizedString Normalize(string original)
                     }
                 } while (true);
 
-                return new NormalizedString(original, sb.ToString(), mapping.ToArray(), false);
+                return sb.ToString();
             }
         }
 
@@ -140,14 +121,14 @@ public UnicodeNormalizer(NormalizationForm form)
                 _normalizationForm = form;
             }
 
-            public override NormalizedString Normalize(string original)
+            public override string Normalize(string original)
             {
                 if (string.IsNullOrEmpty(original))
                 {
-                    return new NormalizedString(original, "", null, true);
+                    return string.Empty;
                 }
 
-                return new NormalizedString(original, original.Normalize(_normalizationForm), null, false);
+                return original.Normalize(_normalizationForm);
             }
         }
     }

Original file line number	Diff line number	Diff line change
`@@ -21,6 +21,6 @@ public LowerCaseNormalizer() { }`
`21`	`21`	`/// </summary>`
`22`	`22`	`/// <param name="original">The original string to normalize to lowercase form.</param>`
`23`	`23`	`/// <returns>The lower-cased normalized string.</returns>`
`24`		`- public override NormalizedString Normalize(string original) => new NormalizedString(original, original.ToLowerInvariant(), normalizedToOriginalMapping: null, isOneToOneMapping: true);`
	`24`	`+ public override string Normalize(string original) => original.ToLowerInvariant();`
`25`	`25`	`}`
`26`	`26`	`}`
Original file line number	Diff line number	Diff line change
`@@ -15,7 +15,7 @@ public abstract class Normalizer`
`15`	`15`	`/// Process the original string to modify it and obtain a normalized string.`
`16`	`16`	`/// </summary>`
`17`	`17`	`/// <param name="original">The original string to normalize.</param>`
`18`		`- /// <returns>The normalized string along with the mapping to the original string.</returns>`
`19`		`- public abstract NormalizedString Normalize(string original);`
	`18`	`+ /// <returns>The normalized string.</returns>`
	`19`	`+ public abstract string Normalize(string original);`
`20`	`20`	`}`
`21`	`21`	`}`
Original file line number	Diff line number	Diff line change
`@@ -21,6 +21,6 @@ public UpperCaseNormalizer() { }`
`21`	`21`	`/// </summary>`
`22`	`22`	`/// <param name="original">The original string to normalize to uppercase form.</param>`
`23`	`23`	`/// <returns>The upper-cased normalized string.</returns>`
`24`		`- public override NormalizedString Normalize(string original) => new NormalizedString(original, original.ToUpperInvariant(), normalizedToOriginalMapping: null, isOneToOneMapping: true);`
	`24`	`+ public override string Normalize(string original) => original.ToUpperInvariant();`
`25`	`25`	`}`
`26`	`26`	`}`
Original file line number	Diff line number	Diff line change
`@@ -22,78 +22,59 @@ public static IEnumerable<object?[]> NormalizerData`
`22`	`22`	`new LowerCaseNormalizer(),`
`23`	`23`	`"How Are You Doing?",`
`24`	`24`	`"how are you doing?",`
`25`		`- true, // IsOneToOneMapping`
`26`		`- true, // CanMapToOriginal`
`27`		`- null, // NormalizedToOriginalMapping`
`28`	`25`	`};`
`29`	`26`
`30`	`27`	`yield return new object?[]`
`31`	`28`	`{`
`32`	`29`	`new UpperCaseNormalizer(),`
`33`	`30`	`"How Are You Doing?",`
`34`	`31`	`"HOW ARE YOU DOING?",`
`35`		`- true, // IsOneToOneMapping`
`36`		`- true, // CanMapToOriginal`
`37`		`- null, // NormalizedToOriginalMapping`
`38`	`32`	`};`
`39`	`33`
`40`	`34`	`yield return new object?[]`
`41`	`35`	`{`
`42`	`36`	`new RemoveQuotesNormalizer(),`
`43`	`37`	`"This is already normalized string",`
`44`	`38`	`"This is already normalized string",`
`45`		`- true, // IsOneToOneMapping`
`46`		`- true, // CanMapToOriginal`
`47`		`- null, // NormalizedToOriginalMapping`
`48`	`39`	`};`
`49`	`40`
`50`	`41`	`yield return new object?[]`
`51`	`42`	`{`
`52`	`43`	`new RemoveQuotesNormalizer(),`
`53`	`44`	`"String \"to\" normalize",`
`54`	`45`	`"String to normalize",`
`55`		`- false, // IsOneToOneMapping`
`56`		`- true, // CanMapToOriginal`
`57`		`- new int[] { 0, 1, 2, 3, 4, 5, 6, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 }, // NormalizedToOriginalMapping`
`58`	`46`	`};`
`59`	`47`
`60`	`48`	`yield return new object?[]`
`61`	`49`	`{`
`62`	`50`	`new UnicodeNormalizer(NormalizationForm.FormKD),`
`63`	`51`	`"\uFB01", // Composed form of the character 'fi' one character`
`64`	`52`	`"fi", // normalized in 2 characters 'f' and 'i'`
`65`		`- false, // IsOneToOneMapping`
`66`		`- false, // CanMapToOriginal`
`67`		`- null, // NormalizedToOriginalMapping`
`68`	`53`	`};`
`69`	`54`	`}`
`70`	`55`	`}`
`71`	`56`
`72`	`57`	`[Theory]`
`73`	`58`	`[MemberData(nameof(NormalizerData))]`
`74`		`- public void TestNormalizer(Normalizer normalizer, string sentence, string normalized, bool isOneToOneMapping, bool canMapToOriginal, int[] normalizedToOriginalMapping)`
	`59`	`+ public void TestNormalizer(Normalizer normalizer, string text, string normalized)`
`75`	`60`	`{`
`76`		`- NormalizedString ns = normalizer.Normalize(sentence);`
`77`		`- Assert.Equal(normalized, ns.Normalized);`
`78`		`- Assert.Equal(isOneToOneMapping, ns.IsOneToOneMapping);`
`79`		`- Assert.Equal(canMapToOriginal, ns.CanMapToOriginal);`
`80`		`- Assert.Equal(normalizedToOriginalMapping, ns.NormalizedToOriginalMapping);`
	`61`	`+ string normalizedText = normalizer.Normalize(text);`
	`62`	`+ Assert.Equal(normalized, normalizedText);`
`81`	`63`
`82`	`64`	`Tokenizer tokenizer = new Tokenizer(BpeTests.CreateEmptyBpe(), WhiteSpace.Instance, normalizer);`
`83`		`- EncodingResult encoding = tokenizer.Encode(sentence);`
`84`		`- Assert.Equal(canMapToOriginal, encoding.OffsetsMappedToOriginalString);`
`85`		`- Assert.Equal(sentence, encoding.OriginalString);`
	`65`	`+ EncodingResult encoding = tokenizer.Encode(text);`
	`66`	`+ Assert.Equal(text, encoding.OriginalString);`
`86`	`67`	`Assert.Equal(normalized, encoding.NormalizedString);`
`87`	`68`	`}`
`88`	`69`
`89`	`70`	`public class RemoveQuotesNormalizer : Normalizer`
`90`	`71`	`{`
`91`		`- public override NormalizedString Normalize(string original)`
	`72`	`+ public override string Normalize(string original)`
`92`	`73`	`{`
`93`	`74`	`int index = original.IndexOf('"');`
`94`	`75`	`if (index <= 0)`
`95`	`76`	`{`
`96`		`- return new NormalizedString(original, original, null, true);`
	`77`	`+ return original;`
`97`	`78`	`}`
`98`	`79`
`99`	`80`	`StringBuilder sb = new StringBuilder(original.Length);`
`@@ -128,7 +109,7 @@ public override NormalizedString Normalize(string original)`
`128`	`109`	`}`
`129`	`110`	`} while (true);`
`130`	`111`
`131`		`- return new NormalizedString(original, sb.ToString(), mapping.ToArray(), false);`
	`112`	`+ return sb.ToString();`
`132`	`113`	`}`
`133`	`114`	`}`
`134`	`115`
`@@ -140,14 +121,14 @@ public UnicodeNormalizer(NormalizationForm form)`
`140`	`121`	`_normalizationForm = form;`
`141`	`122`	`}`
`142`	`123`
`143`		`- public override NormalizedString Normalize(string original)`
	`124`	`+ public override string Normalize(string original)`
`144`	`125`	`{`
`145`	`126`	`if (string.IsNullOrEmpty(original))`
`146`	`127`	`{`
`147`		`- return new NormalizedString(original, "", null, true);`
	`128`	`+ return string.Empty;`
`148`	`129`	`}`
`149`	`130`
`150`		`- return new NormalizedString(original, original.Normalize(_normalizationForm), null, false);`
	`131`	`+ return original.Normalize(_normalizationForm);`
`151`	`132`	`}`
`152`	`133`	`}`
`153`	`134`	`}`