text - 命名实体作为文本分类中的一个特征？

Question

使用现有的文本分类（监督）技术，为什么我们不将文本中的命名实体 (NE) 视为训练和测试中的一个特征？您认为我们可以通过使用 NE 作为一项功能来提高精度吗？

score 3 · Accepted Answer

这在很大程度上取决于您所在的领域。您必须根据领域定义功能。假设在搜索引擎中您正在学习对问题进行排名，生成动态排名，NE 不会给您带来任何好处。它在很大程度上取决于您正在工作的领域以及定义的输出分类标签（监督学习）。

现在假设您正在对与足球、电影或政治等相关的文件进行分类。在这种情况下，命名实体可以工作。我在这里给你举个例子，假设你正在使用神经网络将文件分类为足球、电影、政治等。现在说一个文件进入“莱昂内尔·梅西被邀请参加“社交网络”的首映式，也出席了包括杰西·艾森伯格、安德鲁·加菲尔德和贾斯汀·汀布莱克在内的演员和工作人员”在这里，命名实体（输入特征）和电影（定义输出）之间的联系将更加牢固，因此它将被归类为电影上的文档。

另一个例子，假设我们的文档是“汤姆克鲁斯在电影“最后一场足球比赛”中扮演莱昂内尔梅西的角色。这里的好处是，你的神经网络已经了解到，当演员和足球运动员一起出现在一个文档中时，它很有可能是一部电影。同样，它取决于数据和训练它也可能反过来（但这就是学习的全部内容；查看过去的数据）

所以我的回答是尝试一下，没有人会阻止你将实体命名为特征。它可能对您正在工作的领域有所帮助。

text - 命名实体作为文本分类中的一个特征？

1 回答 1

Related

Reference