diff --git a/charabia/src/separators.rs b/charabia/src/separators.rs index 5405be8..3d4a849 100644 --- a/charabia/src/separators.rs +++ b/charabia/src/separators.rs @@ -12,6 +12,7 @@ /// - Zp Paragraph Separator /// - Zs Space Separator /// plus ". ", ", " and ។ល។" (៘ decomposition) to categorize them as hard separators +/// and "`" to understand markdown formatted text #[rustfmt::skip] pub const DEFAULT_SEPARATORS: &[&str] = &[ ". ", ", ", "_", "‿", "⁀", "⁔", "︳", "︴", "﹍", "﹎", "﹏", "_", "-", "֊", "־", "᐀", "᠆", "‐", "‒", "–", @@ -58,7 +59,7 @@ pub const DEFAULT_SEPARATORS: &[&str] = &[ "𑪠", "𑪡", "𑪢", "𑱁", "𑱂", "𑱃", "𑱄", "𑱅", "𑱰", "𑱱", "𑻷", "𑻸", "𑿿", "𒑰", "𒑱", "𒑲", "𒑳", "𒑴", "𖩮", "𖩯", "𖫵", "𖬷", "𖬸", "𖬹", "𖬺", "𖬻", "𖭄", "𖺗", "𖺘", "𖺙", "𖺚", "𖿢", "𛲟", "𝪇", "𝪈", "𝪉", "𝪊", "𝪋", "𞥞", "𞥟", "\n", "\r", "\u{2029}", " ", " ", " ", " ", " ", " ", " ", " ", " ", " ", " ", " ", - " ", " " + " ", " ", "`" ]; #[rustfmt::skip]