我正在开发一个 Node.js 应用程序,它将 HTML 文档存储在 MongoDB 数据库中,并希望提供全文搜索功能。从我可以看到 MongoDB 中包含的全文搜索期望文档是纯文本,因此不适合索引我的 html 文档。这个假设是否正确,如果是这样,人们对此有何建议。
从阅读其他SO 帖子来看,弹性搜索似乎是最推荐的路径。不过,我不能说我很高兴将 Java 应用程序带入图片中。拥有一个完全独立的应用程序也不是我的理想方案。
我正在开发一个 Node.js 应用程序,它将 HTML 文档存储在 MongoDB 数据库中,并希望提供全文搜索功能。从我可以看到 MongoDB 中包含的全文搜索期望文档是纯文本,因此不适合索引我的 html 文档。这个假设是否正确,如果是这样,人们对此有何建议。
从阅读其他SO 帖子来看,弹性搜索似乎是最推荐的路径。不过,我不能说我很高兴将 Java 应用程序带入图片中。拥有一个完全独立的应用程序也不是我的理想方案。
您可以在 HTML 中抛出一些正则表达式,并尝试自己从 HTML 中剥离标记。输出可以被 MongoDB 索引。
这可能比使用 ES 或 Solr 之类的搜索工具更容易开发(这确实超出了这里的范围),但它不会让你走得那么远:简单地剥离 HTML 意味着上下文信息丢失,并且 HTML 无效会导致麻烦。