solr - 使用 Apache Tika 和 Solr 时的关键点/挑战

Question

最近我参与了一项任务，其中一部分需要使用 Apache Solr（用于文档搜索）和 Apache Tika（从文档中提取元文本或纯文本）

我还没有集成 Solr 和 tika，但是我已经分别与他们两个一起工作过，我可能有一组与 Apache Solr 和 Apache Tika 相关的问题，可能是初学者水平或平均水平。

以下是我对 Solr 所做的实践类型，例如创建了一个虚拟数据库，编写了一个程序，配置了 schema.xml 的东西，运行了 Solr 服务器，以及从数据库中获取文档并存储在 Solr 文档索引中的程序，制作了一个简单的客户端来获取数据从 Solr 通过 JSON 接口，制作了一个程序，使 MySQL 数据库与 Apache 的 Solr 文档索引保持同步。

以下是我使用 tika 进行的实践类型，例如编译和安装的 Tika，了解它的文档解析能力。.. 我的示例任务语句：我的项目的一部分需要存储大约 100,000 个文档（这 100,000 个（Doc、PDF、Txt）文档的数据由 Apache tika 获取并推送到 MySql 的数据库，然后再推送到 apache Solr 的文档数据库）进行全文搜索并通过客户端界面（浏览器）搜索它们

在简单的编程级别，这项任务将完成，

我想了解与管理索引或 Solr 中的其他内容相关的挑战，例如

** 在高级阶段是否需要优化 Solr 的开源代码？

** 虽然 Solr 以正确的方式工作，但它是否提供了任何具体的挑战？

** 最初需要考虑哪些关键事项，Solr 应该以正确的方式工作。

** 你认为有什么额外的工具可以用来监控 Solr 的工作吗？

希望您对我的问题有所了解？

** 另外我想知道您是否有任何使用 apache Tika 和 apache Solr 的经验，以及需要考虑的任何挑战或关键事项？

您想推荐具体的来源吗？或者如果您有任何文件或任何您认为有帮助的东西。

solr - 使用 Apache Tika 和 Solr 时的关键点/挑战

0 回答 0

Related

Reference