我想用 scikit-learn (或 nltk 或对其他建议持开放态度)尝试 tfidf。我拥有的数据是我们已经抓取并存储在 mongoDB 中的相对大量的论坛帖子(~65k)。每个帖子都有一个帖子标题、发布日期和时间、帖子消息的文本(或回复:如果对现有帖子的回复)、用户名、消息 ID 以及它是子帖子还是父帖子(在线程中,您有原始帖子,然后回复此操作或嵌套回复,树)。
我认为每个帖子都是一个单独的文档,类似于 20newsgroups,每个文档的顶部都有我提到的字段,底部的消息帖子的文本我将从 mongo 中提取并写入每个文本文件所需的格式。
为了将数据加载到 scikit,我知道:
http ://scikit-learn.org/dev/modules/generated/sklearn.datasets.load_files.html (但我的数据没有分类)
http://scikit-learn。 org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html - 对于输入,我知道我会使用文件名,但是因为我会有大量文件(每个帖子),有没有办法要么从文本文件中读取文件名?或者是否有一些示例实现有人可以指出我?
此外,关于为每个讨论论坛帖子构建文件名的任何建议,以便稍后确定我何时获得 tfidf 向量和余弦相似度数组
谢谢