0

我正在尝试标记一个充满空格分隔数字的 HTML 页面,例如“5320412185 5320412184 5320412189...”,以观察标记器如何处理数字。我english-left3words-distsim.tagger在构造函数中使用。我在控制台上观察到大多数数字都被标记为,CD但有时也有数字被标记为NN. 我在 nlp.stanford.edu 的常见问题页面上进行了搜索,但在那里找不到。谁能帮助我理解这一点?

我不知道是否需要提及这一点:我通过基于空格分隔符拆分大量输入(1045000 个数字!),将每个数字分别提供给标记器。

4

1 回答 1

1

来自 Penn Treebank 项目的词性标注指南(第三版)

有时,不清楚一个是基数还是名词。一般来说,它应该被标记为一个基数(CD),即使它的意义不是一个数字。

EXAMPLE: one/CD of the best reasons

但是,如果它可以在特定上下文中被形容词复数或修饰,则它是普通名词(NN)。

EXAMPLE: the only (good) one/NN of its kind
         (cf. the only (good) ones/NNS of their kind)

在搭配另一种时,也应标记为普通名词(NN)。

连字符分二分之一,四分之三,八分之七,一个半,七分之三,当它们是名词前修饰语时应标记为形容词(JJ),但如果是副词(RB)它们可以被 double 或两次替换。

进一步阅读:http ://repository.upenn.edu/cgi/viewcontent.cgi?article=1603&context=cis_reports

于 2015-10-17T02:08:25.417 回答