0

我是 Mallet 的新手,我正在尝试使用 mallet 简单标记器/CRF 并尝试使用短语 - 我尝试在 mallet 网站上查找文档并浏览用户档案 - 没有任何帮助。

我尝试训练槌进行简单标记,它的工作原理很好。这是我的数据的样子(请注意训练之间有一个换行符,表示它们是不同的集合)

样本训练数据:

where STOPWORD
is STOPWORD
chicago CITY
<---Newline---->
Sunnyvale CITY
<---Newline---->
Chicago CITY
<---Newline---->
Washington CITY
<---Newline---->
What STOPWORD
is STOPWORD
Sunnyvale CITY
time ASK
<---Newline---->
new STOPWORD
<---Newline---->    
place STOPWORD 

我遇到的问题是当城市名称是多个单词时,说

new york CITY

请注意,在上述训练数据中,“新”是一个停止词问题

  1. 对于简单标记器,上述表示是否正常?如果不是,我如何表示短语?
  2. 如果不是如何表示数据,以便 SimpleTagger/CRF 可以使用前面的“n”个词来到达标签?即我输入的一种块
4

1 回答 1

1

据我所知,您用于多词表达的格式不正确。根据这里,输入的格式是 feature1 feature2 feature3 ....

因此,在您的情况下,New 是 feature1,York 是 feature 2,等等。

我建议使用 New_York 将您的多词表达作为一个词。

同时,您应该注意到您不必在输入数据中包含单词本身。如果您这样做,它们将被视为第一个特征。因此,如果“单词文本”或“单词引理”对您来说不是一个有趣的功能,请将其从您的输入数据中剔除。

于 2013-10-07T08:06:45.007 回答