1

我正在围绕包括 Microsoft Word Docs、PowerPoints、PDF 和文本文件在内的文档语料库构建搜索引擎。我已经成功下载并安装了 ElasticSearch 并让它运行(从命令提示符和浏览器中可见 - localhost:9200)。

我可以上传和搜索手动输入的数据(在几个在线教程中找到 - 例如这个:http ://www.elasticsearchtutorial.com/elasticsearch-in-5-minutes.html#Indexing )

现在我需要进行(大?)从搜索手动输入的数据到搜索大型结构化文本文件的语料库。我的问题是 - 我如何上传/索引这些文档以使它们可用于我已经运行的 Elasticsearch 实例。

我知道这可能太大而无法在单个回复中回答 - 即使指向工具或教程链接也会有所帮助。

版本:Windows 7、Elasticsearch 1.2.1

4

1 回答 1

3

我会尝试使用 Elasticsearch 附件插件:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-attachment-type.html https://github.com/elasticsearch/elasticsearch-mapper-attachments

附件类型

附件类型允许索引不同的“附件”类型字段(编码为 base64),例如,Microsoft Office 格式、开放文档格式、ePub、HTML 等(完整列表可在此处找到)。

附件类型作为插件扩展提供。该插件是一个简单的 zip 文件,可以下载并放在 $ES_HOME/plugins 位置。它将被自动检测并添加附件类型。

它使用 Apache Tika 构建并支持以下文件格式:

支持的文档格式

  • 超文本标记语言
  • XML 和派生格式
  • Microsoft Office 文档格式
  • 开放文档格式
  • 便携式文件格式
  • 电子出版物格式
  • 富文本格式
  • 压缩和打包格式
  • 文本格式
  • 音频格式
  • 图像格式
  • 视频格式
  • Java 类文件和档案
  • mbox 格式

http://tika.apache.org/0.10/formats.html

它作为插件提供 - 如果您不熟悉插件架构,我会在这里看看:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html

于 2014-06-11T19:18:28.253 回答