0

我想筛选文本(特别是 Twitter 消息)以查看它们是否与特定主题相关。你走过那条路吗?如果是这样,我很想听听你会使用什么方法。

就我而言,仅搜索主题关键字就可以在大约 7% 的情况下获得有用的文本;关键字有多种含义,其中一些不是主题。对于我的使用,自动过滤不需要完美;如果提取的消息在 80% 的时间与主题相关,我会很高兴。我也愿意失去 10-30% 的主题信息。

手动进行第一次传递,有一些特征使消息很可能是好的,比如某些英语短语。其他特征很可能会被拒绝,例如 URL、多个哈希标签和其他短语。其他的更难评估。

我可以手动制作一堆正则表达式和相关的权重,然后手动调整,直到得到我喜欢的输出。这很可能奏效。但我可以列举其他几种可能的方法,我想知道 Stack Overflow 的读者有哪些运气好。

谢谢!

4

1 回答 1

1

这本身就是一个完整的领域!我建议对自然语言处理文献进行一些研究。

有一些特别的方法可以做到这一点,但这些方法很容易出错:许多误报和漏报。不过,这可能是一个好的开始。

  1. 如果您使用关键字,您可以尝试通过使用相关关键字周围的词来消除关键字的含义(如果它具有多种含义)。但是,要进行这种消歧,需要经过处理的语料库(一堆文档)才能确定哪些词最常一起出现,并且可能意味着相同的事情。

  2. 您可以测量正在分析的文本与已知相似的文档之间的距离。您需要使用两个文本源的字数,然后比较术语/文档向量。查找“文档向量模型”以获得更彻底的处理。

这是一个很好的项目,但并不简单。

于 2009-07-24T23:24:22.083 回答