Fix: TokenTokenizer存在分词忽略空格的问题 #37

xiangking · 2022-03-24T01:57:14Z

Environment info

Python 3.8.10
ark-nlp 0.0.7

Information

tokenizer.tokenize('森麥康 小米3 M4 M5 5C 5X 5S 5Splus mi 6 6X电源开机音量按键排线侧键 小米5C 开机音量排线')

>>> 
['森',
 '麥',
 '康',
 '小',
 '米',
 '3',
 'm',
 '4',
 'm',
 '5',
 '5',
 'c',
 '5',
 'x',
 '5',
 's',
 '5',
 's',
 'p',
 'l',
 'u',
 's',
 'm',
 'i',
 '6',
 '6',
 'x',
 '电',
 '源',
 '开',
 '机',
 '音',
 '量',
 '按',
 '键',
 '排',
 '线',
 '侧',
 '键',
 '小',
 '米',
 '5',
 'c',
 '开',
 '机',
 '音',
 '量',
 '排',
 '线']

The text was updated successfully, but these errors were encountered:

xiangking · 2022-03-24T02:00:01Z

可使用下面方法重写类，下一版本会修复该bug

from ark_nlp.processor.tokenizer.transfomer import TransfomerTokenizer


class TokenTokenizer(TransfomerTokenizer):
    """
    Transfomer文本编码器，用于按字符进行分词、ID化、填充等操作

    Args:
        vocab: transformers词典类对象、词典地址或词典名，用于实现文本分词和ID化
        max_seq_len (:obj:`int`): 预设的文本最大长度
    """  # noqa: ignore flake8"

    def tokenize(self, text, **kwargs):
        tokens = []
        for token_ in text:
            tokenized_token_ = self.vocab.tokenize(token_)
            if tokenized_token_ == []:
                tokens.extend([token_])
            else:
                tokens.extend(tokenized_token_)
            
        return tokens

    def sequence_to_ids(self, sequence, **kwargs):
        return self.sentence_to_ids(sequence, **kwargs)

Closes #37

xiangking added the bug Something isn't working label Mar 24, 2022

xiangking self-assigned this Mar 24, 2022

xiangking pushed a commit that referenced this issue Mar 26, 2022

fix(tokenizer): 修复TokenTokenizer无法解决空格

72391f8

Closes #37

xiangking pushed a commit that referenced this issue Mar 26, 2022

fix(tokenizer): 修复TokenTokenizer无法解决空格的问题

4956c88

Closes #37

This was referenced Mar 26, 2022

bug修复 #40

Merged

bug修复 #42

Merged

xiangking closed this as completed in #42 Mar 26, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix: TokenTokenizer存在分词忽略空格的问题 #37

Fix: TokenTokenizer存在分词忽略空格的问题 #37

xiangking commented Mar 24, 2022 •

edited

Loading

xiangking commented Mar 24, 2022

Fix: TokenTokenizer存在分词忽略空格的问题 #37

Fix: TokenTokenizer存在分词忽略空格的问题 #37

Comments

xiangking commented Mar 24, 2022 • edited Loading

Environment info

Information

xiangking commented Mar 24, 2022

xiangking commented Mar 24, 2022 •

edited

Loading