最近我参与了一项任务,其中一部分需要使用 Apache Solr(用于文档搜索)和 Apache Tika(从文档中提取元文本或纯文本)
我还没有集成 Solr 和 tika,但是我已经分别与他们两个一起工作过,我可能有一组与 Apache Solr 和 Apache Tika 相关的问题,可能是初学者水平或平均水平。
以下是我对 Solr 所做的实践类型,例如创建了一个虚拟数据库,编写了一个程序,配置了 schema.xml 的东西,运行了 Solr 服务器,以及从数据库中获取文档并存储在 Solr 文档索引中的程序,制作了一个简单的客户端来获取数据从 Solr 通过 JSON 接口,制作了一个程序,使 MySQL 数据库与 Apache 的 Solr 文档索引保持同步。
以下是我使用 tika 进行的实践类型,例如编译和安装的 Tika,了解它的文档解析能力。.. 我的示例任务语句:我的项目的一部分需要存储大约 100,000 个文档(这 100,000 个(Doc、PDF、Txt)文档的数据由 Apache tika 获取并推送到 MySql 的数据库,然后再推送到 apache Solr 的文档数据库)进行全文搜索并通过客户端界面(浏览器)搜索它们
- 在简单的编程级别,这项任务将完成,
我想了解与管理索引或 Solr 中的其他内容相关的挑战,例如
** 在高级阶段是否需要优化 Solr 的开源代码?
** 虽然 Solr 以正确的方式工作,但它是否提供了任何具体的挑战?
** 最初需要考虑哪些关键事项,Solr 应该以正确的方式工作。
** 你认为有什么额外的工具可以用来监控 Solr 的工作吗?
希望您对我的问题有所了解?
** 另外我想知道您是否有任何使用 apache Tika 和 apache Solr 的经验,以及需要考虑的任何挑战或关键事项?
您想推荐具体的来源吗?或者如果您有任何文件或任何您认为有帮助的东西。