我知道如何与 twitter 通信以及如何检索推文,但我正在寻找进一步处理这些推文的工作。
我有两类食物和运动。现在我想将推文分类为食物和运动。谁能建议我如何根据计算机算法进行分类?
关于高拉夫
我知道如何与 twitter 通信以及如何检索推文,但我正在寻找进一步处理这些推文的工作。
我有两类食物和运动。现在我想将推文分类为食物和运动。谁能建议我如何根据计算机算法进行分类?
关于高拉夫
我最近一直在用潜在狄利克雷分配做一些工作。一般的想法是文档包含从主题生成的单词。您可以尝试加载已知与您感兴趣的主题有关的文档语料库,使用感兴趣的推文进行更新,然后选择与您的已知文档具有相同主题的概率很高的推文。
我将 R 用于 LDA(包:topicmodels 和包:lda),但我认为也有一些预构建的 Python 工具。除非您在贝叶斯统计方面有扎实的基础,否则我可能会避免尝试自己编写。
这是 topicmodels 包的文档:http ://cran.r-project.org/web/packages/topicmodels/vignettes/topicmodels.pdf
我怀疑一组算法是否可能对开放域中的推文进行分类。换句话说,我认为一组规则不可能对开放域推文进行分类。您需要将推文解析为为分类定制的语义表示。