我搜索了文档,但找不到存储所有数据的位置。我想访问所有抓取的数据以进行自己的处理。
问问题
265 次
2 回答
0
在文件StartStopListener 中,它设置索引目录:查找环境值OPENSEARCHSERVER_DATA、OPENSEARCHSERVER_MULTIDATA或OPENSHIFT_DATA_DIR的值。
现在,您是否能够轻松/正确地解析文件是另一个争论:我从未尝试过手动直接打开搜索服务器的索引,而且我不知道索引格式是否有据可查。
于 2012-09-16T17:30:01.073 回答
0
默认不存储爬取的数据。仅存储提取的文本。可以存储爬取的数据,流程如下:
- 创建一个新字段:将“stored”参数设置为yes 或compressed。
- 转到架构/解析器列表
- 编辑 HTML 解析器
- 在“字段映射”选项卡中,将解析器字段“htmlSource”链接到新字段。
重新启动索引过程。现在,所有爬取的数据都将复制到该字段。不要忘记将其添加为查询中的返回字段。
于 2012-09-16T18:17:52.467 回答