1

我寻求最有效和最简单的方法来将 80 万多篇学术文章分类为与定义的概念空间相关的 (1) 或不相关的 (0)(这里:与工作相关的学习)。

数据为:标题和摘要(平均=1300 个字符)

可以使用或什至组合任何方法,包括监督机器学习和/或通过建立产生某些阈值以供包含的特征等。

方法可以利用描述概念空间的关键术语,尽管单独的简单频率计数太不可靠。潜在的途径可能涉及潜在语义分析、n-gram、..

为多达 1% 的语料库生成训练数据可能是现实的,尽管这已经意味着手动编码 8,000 篇文章(1=相关,0=不相关),这是否足够?

非常感谢具体的想法和一些简短的推理,因此我可以就如何进行做出明智的决定。非常感谢!

4

1 回答 1

1

几个想法:

  1. 运行 LDA 并获取文档主题和主题词分布(20 个主题,具体取决于您对不同主题的数据集覆盖范围)。将具有最高相关主题的文档的前 r% 分配为相关,将低 nr% 的文档分配为不相关。然后在这些标记的文档上训练一个分类器。

  2. 只需使用词袋并检索与您的查询(您的概念空间)相关的前 r 个最接近的邻居,并检索不相关的 borrom nr 百分比,并在它们上训练分类器。

  3. 如果你有引用,你可以通过标记很少的论文来在网络图上运行标签传播。

  4. 不要忘记通过将标题词更改为 title_word1 来使标题词与您的抽象词不同,以便任何分类器都可以对它们施加更多权重。

  5. 将文章聚类成 100 个聚类,然后选择然后手动标记这些聚类。根据您的语料库中不同主题的覆盖范围选择 100。您也可以为此使用层次聚类。

  6. 如果相关文档的数量远少于不相关文档的数量,那么最好的方法是找到离您的概念空间最近的邻居(例如,使用在 Lucene 中实现的信息检索)。然后,您可以手动降低您的排名结果,直到您觉得这些文件不再相关。

这些方法中的大多数是用于文本分类的Bootstrapping弱监督方法,您可以参考更多文献。

于 2016-12-02T02:49:35.897 回答