我有 100 Gb 的文件。我想对其进行描述,并对流行的主题有一个大致的了解。
文档是纯文本。
我曾考虑使用 Google 桌面之类的工具进行搜索,但它太大而无法真正猜测要搜索的内容,而且执行足够多的搜索以覆盖整个集合太费时。
是否有任何免费可用的工具可以对大型文档数据集进行聚类?
有没有这样的工具可以可视化这样的集群?
我有 100 Gb 的文件。我想对其进行描述,并对流行的主题有一个大致的了解。
文档是纯文本。
我曾考虑使用 Google 桌面之类的工具进行搜索,但它太大而无法真正猜测要搜索的内容,而且执行足够多的搜索以覆盖整个集合太费时。
是否有任何免费可用的工具可以对大型文档数据集进行聚类?
有没有这样的工具可以可视化这样的集群?
对于基本的 NLP 方法,您可以将每个文档表示为基于词频的向量,然后使用贝叶斯或其他方法(SVM、k-means 等)对文档向量进行聚类。
有关相关答案,请参阅这个有点相似的 SO question。
您需要研究进行自然语言处理的工具。基本上,您可以相当可靠地确定(使用统计工具)文档的语言(参见http://en.wikipedia.org/wiki/N-gram)和话语领域(参见http://en.wikipedia.org /wiki/Support_vector_machine)。如果您从维基百科开始,应该可以使用一些工具。