SO是如何实现标记搜索的?是否使用 Lucene 或任何其他开源搜索引擎库进行标记搜索?
搜索文档(PDF、XML、HTML、MS Word)或数据库的最佳方式是什么?
搜索标签与搜索文本有很大不同。标记搜索正在搜索所有问题都与特定标记相关联的关联。这可以通过全文引擎实现,其中所有标签都附加在一个大条目中,但在这种情况下,关系数据库可能是最好的(假设标记的数据一开始就在关系数据库中)。
要搜索 PDF、XLS、HTML 等其他文档,则需要 Lucene 等全文。您将需要一个解析器,它可以仅从每个源中提取相关文本(即,将文本与标记分开)。
所以,是的,它使用的是 Lucene.NET,尽管我不确定具体如何。“最好的”方式是一个完整的“另一个故事”。
上次讨论这个问题时(在播客上)提到 Stackoverflow 使用 SQL Server 的全文搜索功能,而不是 Lucene。
所以不使用Lucene。
如果您想要索引文档并且正在运行 Windows,那么IFilters将是我的首选。