我正在尝试在给定文本中查找命名实体。为此,我尝试使用 DBPedia 聚光灯服务。
我能够从中得到回应。但是,DBPedia 数据集是有限的,所以我尝试用我自己的字典替换他们的 spotter.dict 文件。我的字典每行包含实体:
Sachin Tendulkar###PERSON
巴拉克奥巴马###PERSON
.... ETC
然后我解析这个文件并构建一个
ExactDictionaryChunker
对象。现在我可以获取实体及其类型(修改 dbpedia 代码后)。
我的问题是:DBPedia 聚光灯正在使用 Lucene 索引文件。我真的不明白他们使用这些文件的目的是什么?
我们可以在不使用索引文件的情况下做到这一点吗?索引文件的意义是什么?