2

我正在尝试对作为研究项目的一部分收集的文档进行聚类。我正在尝试使用 Carrot2 工作台,但不知道如何将胡萝卜指向包含文档的文件夹。请问我该怎么做?(我有少量文档(.txt)要比较,它们位于独立的研究机器上,所以我无法连接到网络并在那里处理它们)。

任何帮助都感激不尽!

(我正在尝试确定文档中的相似之处/主题/组;如果 Carrot2 不是正确的工具,那么将不胜感激其他建议!)

非常感谢,

约翰

4

2 回答 2

4

目前 Carrot2 Workbench 不支持直接从本地文件夹中聚类文件。这里有几个解决方案:

  1. 将所有文本文件转换为Carrot2 XML 格式,并将 XML 文件聚集在 Carrot2 Workbench 中。

  2. 在 Apache Solr 中索引您的文件并从 Carrot2 Workbench 查询您的 Solr 索引。

  3. 将您的文件转换为 Lucene 索引并从 Carrot2 Workbench 查询索引。我为该任务编写了一个简单的实用程序,称为folder2index源代码)。

    假设您在 Windows 上,索引过程如下:

    1. folder2index工具解压缩到某个地方,假设您将其解压缩为c:\carrot2\folder2index-0.0.1.

    2. 要从某个目录(假设c:\txt-input)索引文本文件并在 中创建索引c:\txt-input-index,请执行以下操作:

      一个。打开命令行控制台(开始菜单 -> 运行程序 -> 键入cmd并按 Enter 键)。

      湾。在控制台中,键入:

      cd c:\carrot2\folder2index-0.0.2
      java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
      

      片刻之后,您应该会看到如下内容:

      ...
      Index created: c:\txt-input-index
      
    3. 为文件编制索引后,您可以使用Lucene 文档源将它们聚集在 Carrot2 Workbench 中。使用content文件名来引用文本文件的内容;文件名存储在fileName字段中。

    几点注意事项:

    • 目前只有 PDF、HTML 和 TXT 文件被索引,其他文件被忽略。

    • 如果索引已存在,则将文件添加到索引中。这意味着如果您使用相同的参数运行该命令两次,则索引将包含重复的文档。要重新索引刚刚添加了一些文件的文件夹,最好先删除索引目录。

    • 您可以使用 Carrot2 Workbench 中的 Query 字段从索引中选择特定文件,例如:

      *:*-- 检索所有内容(最多为请求的结果数)

      mining-- 检索所有包含单词“mining”的文档(同样,直到请求的结果数量)

      "data mining"-- 检索包含确切短语“数据挖掘”的文档

      fileName:92*-- 检索名称以“92”开头的文件的内容

于 2013-08-14T12:35:48.220 回答
0

我最近构建了一个文档集群软件。这个软件是用java构建的。这个软件是完全免费的。文档管理器软件可以聚集大量具有以下扩展名的文档:

  • 文本
  • pdf
  • 文档
  • 文档
  • xls
  • xlsx
  • ppt
  • pptx

如果此软件不能满足您的要求,请告诉我。

这是链接: http: //www.computergodzilla.com

如果您想了解更多信息,请参阅此处: http ://computergodzilla.blogspot.com/2013/07/document-organizer-software.html

于 2013-08-20T11:14:35.310 回答