text - 检测主题文本？

Question

我想筛选文本（特别是 Twitter 消息）以查看它们是否与特定主题相关。你走过那条路吗？如果是这样，我很想听听你会使用什么方法。

就我而言，仅搜索主题关键字就可以在大约 7% 的情况下获得有用的文本；关键字有多种含义，其中一些不是主题。对于我的使用，自动过滤不需要完美；如果提取的消息在 80% 的时间与主题相关，我会很高兴。我也愿意失去 10-30% 的主题信息。

手动进行第一次传递，有一些特征使消息很可能是好的，比如某些英语短语。其他特征很可能会被拒绝，例如 URL、多个哈希标签和其他短语。其他的更难评估。

我可以手动制作一堆正则表达式和相关的权重，然后手动调整，直到得到我喜欢的输出。这很可能奏效。但我可以列举其他几种可能的方法，我想知道 Stack Overflow 的读者有哪些运气好。

谢谢！

score 1 · Accepted Answer

这本身就是一个完整的领域！我建议对自然语言处理文献进行一些研究。

有一些特别的方法可以做到这一点，但这些方法很容易出错：许多误报和漏报。不过，这可能是一个好的开始。

如果您使用关键字，您可以尝试通过使用相关关键字周围的词来消除关键字的含义（如果它具有多种含义）。但是，要进行这种消歧，需要经过处理的语料库（一堆文档）才能确定哪些词最常一起出现，并且可能意味着相同的事情。
您可以测量正在分析的文本与已知相似的文档之间的距离。您需要使用两个文本源的字数，然后比较术语/文档向量。查找“文档向量模型”以获得更彻底的处理。

这是一个很好的项目，但并不简单。

1 回答 1