lucene - DBPedia-Spotlight..中的lucene索引文件有什么用？

Question

我正在尝试在给定文本中查找命名实体。为此，我尝试使用 DBPedia 聚光灯服务。

我能够从中得到回应。但是，DBPedia 数据集是有限的，所以我尝试用我自己的字典替换他们的 spotter.dict 文件。我的字典每行包含实体：

Sachin Tendulkar###PERSON

巴拉克奥巴马###PERSON

.... ETC
然后我解析这个文件并构建一个ExactDictionaryChunker对象。
现在我可以获取实体及其类型（修改 dbpedia 代码后）。

我的问题是：DBPedia 聚光灯正在使用 Lucene 索引文件。我真的不明白他们使用这些文件的目的是什么？

我们可以在不使用索引文件的情况下做到这一点吗？索引文件的意义是什么？

score 0 · Accepted Answer

在 DBpedia Spotlight 的早期实现中使用了 Lucene，将每个实体的模型存储在我们的 KB 中。该模型用于为我们提供上下文（从您的输入文本中提取）和实体之间的相关性度量。更具体地说，每个实体都由一个向量表示{t1: score1, t2: score2, ... }。在运行时，我们将您的输入文本建模为相同维度的向量，并测量输入向量和实体向量之间的余弦。在您的情况下，您必须将 Sachin Tendulkar 的向量添加到空间（将文档添加到 Lucene 索引）以防它不存在。不过，最新的实现已经从 Lucene 转移到内部的内存上下文存储中。https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)

lucene - DBPedia-Spotlight..中的lucene索引文件有什么用？

1 回答 1

Related

Reference