2

我正在尝试在给定文本中查找命名实体。为此,我尝试使用 DBPedia 聚光灯服务。

  1. 我能够从中得到回应。但是,DBPedia 数据集是有限的,所以我尝试用我自己的字典替换他们的 spotter.dict 文件。我的字典每行包含实体:

    Sachin Tendulkar###PERSON

    巴拉克奥巴马###PERSON

    .... ETC

  2. 然后我解析这个文件并构建一个ExactDictionaryChunker对象。

  3. 现在我可以获取实体及其类型(修改 dbpedia 代码后)。

我的问题是:DBPedia 聚光灯正在使用 Lucene 索引文件。我真的不明白他们使用这些文件的目的是什么?

我们可以在不使用索引文件的情况下做到这一点吗?索引文件的意义是什么?

4

1 回答 1

0

在 DBpedia Spotlight 的早期实现中使用了 Lucene,将每个实体的模型存储在我们的 KB 中。该模型用于为我们提供上下文(从您的输入文本中提取)和实体之间的相关性度量。更具体地说,每个实体都由一个向量表示{t1: score1, t2: score2, ... }。在运行时,我们将您的输入文本建模为相同维度的向量,并测量输入向量和实体向量之间的余弦。在您的情况下,您必须将 Sachin Tendulkar 的向量添加到空间(将文档添加到 Lucene 索引)以防它不存在。不过,最新的实现已经从 Lucene 转移到内部的内存上下文存储中。https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)

于 2015-08-01T19:35:04.463 回答