我正在尝试对作为研究项目的一部分收集的文档进行聚类。我正在尝试使用 Carrot2 工作台,但不知道如何将胡萝卜指向包含文档的文件夹。请问我该怎么做?(我有少量文档(.txt)要比较,它们位于独立的研究机器上,所以我无法连接到网络并在那里处理它们)。
任何帮助都感激不尽!
(我正在尝试确定文档中的相似之处/主题/组;如果 Carrot2 不是正确的工具,那么将不胜感激其他建议!)
非常感谢,
约翰
我正在尝试对作为研究项目的一部分收集的文档进行聚类。我正在尝试使用 Carrot2 工作台,但不知道如何将胡萝卜指向包含文档的文件夹。请问我该怎么做?(我有少量文档(.txt)要比较,它们位于独立的研究机器上,所以我无法连接到网络并在那里处理它们)。
任何帮助都感激不尽!
(我正在尝试确定文档中的相似之处/主题/组;如果 Carrot2 不是正确的工具,那么将不胜感激其他建议!)
非常感谢,
约翰
目前 Carrot2 Workbench 不支持直接从本地文件夹中聚类文件。这里有几个解决方案:
将所有文本文件转换为Carrot2 XML 格式,并将 XML 文件聚集在 Carrot2 Workbench 中。
在 Apache Solr 中索引您的文件并从 Carrot2 Workbench 查询您的 Solr 索引。
将您的文件转换为 Lucene 索引并从 Carrot2 Workbench 查询索引。我为该任务编写了一个简单的实用程序,称为folder2index(源代码)。
假设您在 Windows 上,索引过程如下:
将folder2index
工具解压缩到某个地方,假设您将其解压缩为c:\carrot2\folder2index-0.0.1
.
要从某个目录(假设c:\txt-input
)索引文本文件并在 中创建索引c:\txt-input-index
,请执行以下操作:
一个。打开命令行控制台(开始菜单 -> 运行程序 -> 键入cmd
并按 Enter 键)。
湾。在控制台中,键入:
cd c:\carrot2\folder2index-0.0.2
java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
片刻之后,您应该会看到如下内容:
...
Index created: c:\txt-input-index
为文件编制索引后,您可以使用Lucene 文档源将它们聚集在 Carrot2 Workbench 中。使用content
文件名来引用文本文件的内容;文件名存储在fileName
字段中。
几点注意事项:
目前只有 PDF、HTML 和 TXT 文件被索引,其他文件被忽略。
如果索引已存在,则将文件添加到索引中。这意味着如果您使用相同的参数运行该命令两次,则索引将包含重复的文档。要重新索引刚刚添加了一些文件的文件夹,最好先删除索引目录。
您可以使用 Carrot2 Workbench 中的 Query 字段从索引中选择特定文件,例如:
*:*
-- 检索所有内容(最多为请求的结果数)
mining
-- 检索所有包含单词“mining”的文档(同样,直到请求的结果数量)
"data mining"
-- 检索包含确切短语“数据挖掘”的文档
fileName:92*
-- 检索名称以“92”开头的文件的内容
我最近构建了一个文档集群软件。这个软件是用java构建的。这个软件是完全免费的。文档管理器软件可以聚集大量具有以下扩展名的文档:
如果此软件不能满足您的要求,请告诉我。
这是链接: http: //www.computergodzilla.com
如果您想了解更多信息,请参阅此处: http ://computergodzilla.blogspot.com/2013/07/document-organizer-software.html