我正在尝试标记一个充满空格分隔数字的 HTML 页面,例如“5320412185 5320412184 5320412189...”,以观察标记器如何处理数字。我english-left3words-distsim.tagger
在构造函数中使用。我在控制台上观察到大多数数字都被标记为,CD
但有时也有数字被标记为NN
. 我在 nlp.stanford.edu 的常见问题页面上进行了搜索,但在那里找不到。谁能帮助我理解这一点?
我不知道是否需要提及这一点:我通过基于空格分隔符拆分大量输入(1045000 个数字!),将每个数字分别提供给标记器。