unicode - 标准化 Unicode 数据以进行索引（对于多字节语言）：哪些产品可以做到这一点？有 Lucene/Hadoop/Solr 吗？

Question

我有几个（超过 100 万）个文档、电子邮件等，我需要对其进行索引和搜索。每个文档都可能具有不同的编码。

我需要学习和理解哪些产品（或产品配置）才能正确执行此操作？

我的第一个猜测是基于 Lucene 的东西，但这是我正在学习的东西。我的主要愿望是尽快开始耗时的编码过程，以便我们可以同时构建搜索前端。这可能需要对双字节字符进行某种规范化。

任何帮助表示赞赏。

score 1 · Accepted Answer

1

你可以试试蒂卡。

于 2010-11-20T16:37:46.147 回答

score 1 · Accepted Answer

将所有内容都转换为 UTF-8 并通过规范化表单 D 运行它。这将有助于您的搜索。

score 0 · Accepted Answer

我建议你使用Solr。ExtractingRequestHandler处理编码和文档格式。使用 Solr 获得工作原型相对容易。DataImportHandler允许将文档存储库导入到 Solr。

score 0 · Accepted Answer

您是否暗示您需要自己转换文档？这听起来是个坏主意，尤其是在大型异构集合上。

一个好的搜索引擎将具有强大的编码检测。Lucene 和 Solr 使用它（Hadoop 不是搜索引擎）。而且我认为不可能有一个搜索引擎在其内部索引格式中不使用规范化编码。因此，规范化不会成为选择标准，尽管尝试编码检测会。

4 回答 4