0

我有一个项目,我想确定给定文本的作者,博客如何为特定作者创建训练数据和语料库?

请建议一些链接以及相同的算法。

4

2 回答 2

3

有许多方法可以完成作者身份识别的任务。由于您似乎是 NLP 的新手,因此我建议您从基本的词袋向量方法开始:

  1. 想出一组作为特征的词。
  2. 获取每个文档并将其转换为每个特征词的计数向量。
  3. 通过余弦相似度对向量进行聚类。
  4. 最终在同一个集群中的文档很可能是由同一作者编写的。

现在有一个重要的问题使得作者身份识别的聚类不同于普通的文档聚类:在普通的文档聚类中,我们试图忽略“停用词”,诸如“the”、“be”、“that”等高频词,而只是专注于“内容词”。但在作者身份识别中,事实证明,这些停用词是使个人写作独一无二的东西!所以向量实际上应该根据作者在写作中使用这些功能词的方式进行聚类。

下一步,尝试使用更好的功能,例如单词二元组,因为这些功能可以更好地了解作者写作风格的独特方面。

有关该领域的广阔视野和人们尝试过的技术,请查看Google 学者的说法。您可能应该寻找提供该领域概述的调查文章或其他论文,以便您可以很好地了解人们尝试了什么以及取得了成功。

于 2012-09-20T06:21:28.323 回答
1

你可以使用神经网络。例如,这里有一篇文章试图确定莎士比亚、弗莱彻和马洛作品的作者。它还包括一些 python 脚本(和 C 中的神经网络实现)。还有一些数据文件可以让您了解如何编写训练数据。

但如前所述,目前您的问题仍然过于宽泛。希望这个例子能让你开始,这样你就可以回来问更具体的问题。

于 2012-09-20T06:36:47.033 回答