我想筛选文本(特别是 Twitter 消息)以查看它们是否与特定主题相关。你走过那条路吗?如果是这样,我很想听听你会使用什么方法。
就我而言,仅搜索主题关键字就可以在大约 7% 的情况下获得有用的文本;关键字有多种含义,其中一些不是主题。对于我的使用,自动过滤不需要完美;如果提取的消息在 80% 的时间与主题相关,我会很高兴。我也愿意失去 10-30% 的主题信息。
手动进行第一次传递,有一些特征使消息很可能是好的,比如某些英语短语。其他特征很可能会被拒绝,例如 URL、多个哈希标签和其他短语。其他的更难评估。
我可以手动制作一堆正则表达式和相关的权重,然后手动调整,直到得到我喜欢的输出。这很可能奏效。但我可以列举其他几种可能的方法,我想知道 Stack Overflow 的读者有哪些运气好。
谢谢!