我目前正在开发一个网站,允许用户上传演示文稿、文档和电子书(例如 scribd 和 slideshare),所以我需要能够搜索文件的内容。我目前正在从 txt 文件中的文件中提取文本。当我使用 MySQL 时,我正在考虑 2 个选项:
- 将纯文本存储在单独的表中,并使用 mysql 的全文索引对其进行搜索。
- 使用倒排索引来存储单词并通过它们进行搜索。(2 个新表 - 单词和多对多与文档表)。现在在这种情况下,我可以做些什么来处理与结果更相关的重复词。
该文本将仅用于搜索。(1) 的问题是电子书的文本可能很大,因此我考虑将其限制为(例如)50kb 或更少。(2) 电子书也有很多单词的问题,同样可以限制。
那么,您能否指导我找到索引文本并能够进行快速全文搜索的最佳方法。在这种情况下,我需要充分利用 mysql。