2

我正在开发一个 Node.js 应用程序,它将 HTML 文档存储在 MongoDB 数据库中,并希望提供全文搜索功能。从我可以看到 MongoDB 中包含的全文搜索期望文档是纯文本,因此不适合索引我的 html 文档。这个假设是否正确,如果是这样,人们对此有何建议。

从阅读其他SO 帖子来看,弹性搜索似乎是最推荐的路径。不过,我不能说我很高兴将 Java 应用程序带入图片中。拥有一个完全独立的应用程序也不是我的理想方案。

4

1 回答 1

1

您可以在 HTML 中抛出一些正则表达式,并尝试自己从 HTML 中剥离标记。输出可以被 MongoDB 索引。

这可能比使用 ES 或 Solr 之类的搜索工具更容易开发(这确实超出了这里的范围),但它不会让你走得那么远:简单地剥离 HTML 意味着上下文信息丢失,并且 HTML 无效会导致麻烦。

于 2013-09-02T10:17:21.880 回答