我对 lucene 很陌生。我有一个包含 100 条记录的文本文件,每行有两列。第一列是用户 ID,第二列是 url_list(我想这些将是我的文档字段)
我需要使用 lucene 提供搜索功能,该功能将提供包含输入 url 或用户 ID 的文档。为此,我需要为我的文本文件的每一行创建一个 lucene 文档。
请为此建议我一些示例代码..
我正在使用 lucene 版本 3.6.2
我对 lucene 很陌生。我有一个包含 100 条记录的文本文件,每行有两列。第一列是用户 ID,第二列是 url_list(我想这些将是我的文档字段)
我需要使用 lucene 提供搜索功能,该功能将提供包含输入 url 或用户 ID 的文档。为此,我需要为我的文本文件的每一行创建一个 lucene 文档。
请为此建议我一些示例代码..
我正在使用 lucene 版本 3.6.2
这是一个简短但很棒的关于 Lucene 的初学者教程。
脚步
1)我假设您正在预先解析文本文件以获取用户 ID、相应的 url 列表。你必须这样做。Lucene 无济于事。Lucene 确实破坏了属于单个字段的文本,但不会破坏文本并将用户 ID 添加到用户 ID 字段并将 urls 添加到 URL 字段。
2)阅读上面的教程。我强烈建议您使用截至目前 4.1的最新版本的 Lucene。
3)要记住的特定于您的用例的事情
每个文档有两个字段:USER_ID、URL(当然你可以更改这些名称)
不要分析(分解成标记)USER_ID 字段的内容。
我不确定你想如何存储 URL 字段。您可能不想分析它或使用 StandardAnalyzer 识别 URL 而不进行标记。
4)您可以在教程中找到索引、查询、搜索、检索结果的示例代码。