0

我搜索了文档,但找不到存储所有数据的位置。我想访问所有抓取的数据以进行自己的处理。

4

2 回答 2

0

在文件StartStopListener 中,它设置索引目录:查找环境值OPENSEARCHSERVER_DATAOPENSEARCHSERVER_MULTIDATAOPENSHIFT_DATA_DIR的值。

现在,您是否能够轻松/正确地解析文件是另一个争论:我从未尝试过手动直接打开搜索服务器的索引,而且我不知道索引格式是否有据可查。

于 2012-09-16T17:30:01.073 回答
0

默认不存储爬取的数据。仅存储提取的文本。可以存储爬取的数据,流程如下:

  1. 创建一个新字段:将“stored”参数设置为yes 或compressed。
  2. 转到架构/解析器列表
  3. 编辑 HTML 解析器
  4. 在“字段映射”选项卡中,将解析器字段“htmlSource”链接到新字段。

重新启动索引过程。现在,所有爬取的数据都将复制到该字段。不要忘记将其添加为查询中的返回字段。

于 2012-09-16T18:17:52.467 回答