1

我正在使用转换为纯文本的 html 文档为 TokenNameFinder 创建一个训练集,但我的精度很低,我想使用 HTML 标签作为训练的一部分。就像粗体字和不同边距大小的句子一样。OpenNLP 会接受并使用这些标签来创建规则吗?还有其他方法可以利用这些标签来提高精度吗?

4

1 回答 1

0

目前尚不清楚使用 HTML 标签训练 OpenNLP 的含义。训练输入是一个带注释的标记化句子:

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group .

要使用标准工具训练 OpenNLP 模型,您需要遵循此约定的注释。请注意,注释不遵循 XML 标准。

您可以将注释直接嵌入到将用于培训的 HTML 文档中。它甚至可以帮助分类器获得额外的上下文,但我从未读过任何关于它的实验结果。

你应该记住,训练数据应该被标记化。这意味着您应该在单词和标点符号之间以及文本元素和 html 之间包含空格:

<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group .
于 2012-04-11T01:21:05.707 回答