carrot2 - 胡萝卜2 - 我可以从文件夹中聚集文档吗？

Question

我正在尝试对作为研究项目的一部分收集的文档进行聚类。我正在尝试使用 Carrot2 工作台，但不知道如何将胡萝卜指向包含文档的文件夹。请问我该怎么做？（我有少量文档（.txt）要比较，它们位于独立的研究机器上，所以我无法连接到网络并在那里处理它们）。

任何帮助都感激不尽！

（我正在尝试确定文档中的相似之处/主题/组；如果 Carrot2 不是正确的工具，那么将不胜感激其他建议！）

非常感谢，

约翰

score 4 · Accepted Answer

目前 Carrot2 Workbench 不支持直接从本地文件夹中聚类文件。这里有几个解决方案：

将所有文本文件转换为Carrot2 XML 格式，并将 XML 文件聚集在 Carrot2 Workbench 中。
在 Apache Solr 中索引您的文件并从 Carrot2 Workbench 查询您的 Solr 索引。
将您的文件转换为 Lucene 索引并从 Carrot2 Workbench 查询索引。我为该任务编写了一个简单的实用程序，称为folder2index（源代码）。

假设您在 Windows 上，索引过程如下：
1. 将folder2index工具解压缩到某个地方，假设您将其解压缩为c:\carrot2\folder2index-0.0.1.
2. 要从某个目录（假设c:\txt-input）索引文本文件并在中创建索引c:\txt-input-index，请执行以下操作：
  
  一个。打开命令行控制台（开始菜单 -> 运行程序 -> 键入cmd并按 Enter 键）。
  
  湾。在控制台中，键入：
```
cd c:\carrot2\folder2index-0.0.2
java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
```
  片刻之后，您应该会看到如下内容：
```
...
Index created: c:\txt-input-index
```
3. 为文件编制索引后，您可以使用Lucene 文档源将它们聚集在 Carrot2 Workbench 中。使用content文件名来引用文本文件的内容；文件名存储在fileName字段中。
几点注意事项：
- 目前只有 PDF、HTML 和 TXT 文件被索引，其他文件被忽略。
- 如果索引已存在，则将文件添加到索引中。这意味着如果您使用相同的参数运行该命令两次，则索引将包含重复的文档。要重新索引刚刚添加了一些文件的文件夹，最好先删除索引目录。
- 您可以使用 Carrot2 Workbench 中的 Query 字段从索引中选择特定文件，例如：
  
  *:*-- 检索所有内容（最多为请求的结果数）
  
  mining-- 检索所有包含单词“mining”的文档（同样，直到请求的结果数量）
  
  "data mining"-- 检索包含确切短语“数据挖掘”的文档
  
  fileName:92*-- 检索名称以“92”开头的文件的内容

score 0 · Accepted Answer

我最近构建了一个文档集群软件。这个软件是用java构建的。这个软件是完全免费的。文档管理器软件可以聚集大量具有以下扩展名的文档：

文本
pdf
文档
文档
xls
xlsx
ppt
pptx

如果此软件不能满足您的要求，请告诉我。

这是链接： http: //www.computergodzilla.com

如果您想了解更多信息，请参阅此处： http ://computergodzilla.blogspot.com/2013/07/document-organizer-software.html

carrot2 - 胡萝卜2 - 我可以从文件夹中聚集文档吗？

2 回答 2

Related

Reference