我寻求最有效和最简单的方法来将 80 万多篇学术文章分类为与定义的概念空间相关的 (1) 或不相关的 (0)(这里:与工作相关的学习)。
数据为:标题和摘要(平均=1300 个字符)
可以使用或什至组合任何方法,包括监督机器学习和/或通过建立产生某些阈值以供包含的特征等。
方法可以利用描述概念空间的关键术语,尽管单独的简单频率计数太不可靠。潜在的途径可能涉及潜在语义分析、n-gram、..
为多达 1% 的语料库生成训练数据可能是现实的,尽管这已经意味着手动编码 8,000 篇文章(1=相关,0=不相关),这是否足够?
非常感谢具体的想法和一些简短的推理,因此我可以就如何进行做出明智的决定。非常感谢!