对于希望将数字和符号或单词一起标记的情况,如何向 spacy 添加自定义标记化规则。例如下面的句子:
“我 100% 喜欢苹果。我喜欢 500 克的苹果”
被标记如下:
['I', '100', '%', 'like', 'apples', '.', 'I', 'like', '500', 'g', 'of', 'apples']
如果它像这样被标记化会更好:
['I', '100%', 'like', 'apples', '.', 'I', 'like', '500g', 'of', 'apples']
以下代码用于生成此代码:
import spacy
nlp = spacy.load("en_core_web_sm")
text = "I 100% like apples. I like 500g of apples"
print([token.text for token in nlp(text)])