0

我是一名实习生,为我的公司构建搜索引擎。除了网络爬虫之外,该搜索引擎还应使用不同的 API 搜索数据,然后索引返回的数据。我考虑过使用 solr 来索引这个返回的数据。

我首先想请你就这是否是个好主意提出建议。我还想知道我是否会在索引 JSON 和 Atom 方面遇到问题,因为我不知道高级标签的名称。

谢谢

4

2 回答 2

1

请继续前进,因为您正朝着正确的方向前进。对问题第二部分的回答是,是的,您在编制索引时会遇到问题,例如架构问题、索引嵌套 json 等,这些问题可以使用插件或数据导入处理程序 (DIH) 解决。

于 2015-08-28T20:48:23.417 回答
0

首先,您可以使用 solr 索引 atom 和 json 数据。有两种方法可以做到这一点:

1)解析数据,将解析后的数据的每个字段映射到solr中的一个字段。2)不解析数据,而是将整个文件提供给 Apache Tika(这将完成这项工作)。一种方法是将数据保存在文件中并使用更新/提取对文件进行索引。

于 2013-07-11T12:27:39.157 回答