search - StackOverflow 是否使用 Lucene 进行标记搜索？

Question

SO是如何实现标记搜索的？是否使用 Lucene 或任何其他开源搜索引擎库进行标记搜索？

搜索文档（PDF、XML、HTML、MS Word）或数据库的最佳方式是什么？

score 1 · Accepted Answer

搜索标签与搜索文本有很大不同。标记搜索正在搜索所有问题都与特定标记相关联的关联。这可以通过全文引擎实现，其中所有标签都附加在一个大条目中，但在这种情况下，关系数据库可能是最好的（假设标记的数据一开始就在关系数据库中）。

要搜索 PDF、XLS、HTML 等其他文档，则需要 Lucene 等全文。您将需要一个解析器，它可以仅从每个源中提取相关文本（即，将文本与标记分开）。

score 0 · Accepted Answer

所以，是的，它使用的是 Lucene.NET，尽管我不确定具体如何。“最好的”方式是一个完整的“另一个故事”。

score 0 · Accepted Answer

上次讨论这个问题时（在播客上）提到 Stackoverflow 使用 SQL Server 的全文搜索功能，而不是 Lucene。

score 0 · Accepted Answer

所以不使用Lucene。

如果您想要索引文档并且正在运行 Windows，那么IFilters将是我的首选。

4 回答 4