使用现有的文本分类(监督)技术,为什么我们不将文本中的命名实体 (NE) 视为训练和测试中的一个特征?您认为我们可以通过使用 NE 作为一项功能来提高精度吗?
问问题
1254 次
1 回答
3
这在很大程度上取决于您所在的领域。您必须根据领域定义功能。假设在搜索引擎中您正在学习对问题进行排名,生成动态排名,NE 不会给您带来任何好处。它在很大程度上取决于您正在工作的领域以及定义的输出分类标签(监督学习)。
现在假设您正在对与足球、电影或政治等相关的文件进行分类。在这种情况下,命名实体可以工作。我在这里给你举个例子,假设你正在使用神经网络将文件分类为足球、电影、政治等。现在说一个文件进入“莱昂内尔·梅西被邀请参加“社交网络”的首映式,也出席了包括杰西·艾森伯格、安德鲁·加菲尔德和贾斯汀·汀布莱克在内的演员和工作人员”在这里,命名实体(输入特征)和电影(定义输出)之间的联系将更加牢固,因此它将被归类为电影上的文档。
另一个例子,假设我们的文档是“汤姆克鲁斯在电影“最后一场足球比赛”中扮演莱昂内尔梅西的角色。这里的好处是,你的神经网络已经了解到,当演员和足球运动员一起出现在一个文档中时,它很有可能是一部电影。同样,它取决于数据和训练它也可能反过来(但这就是学习的全部内容;查看过去的数据)
所以我的回答是尝试一下,没有人会阻止你将实体命名为特征。它可能对您正在工作的领域有所帮助。
于 2012-04-10T11:19:25.943 回答