我了解 DBPedia 聚光灯对给定文档进行命名实体识别。为此,它使用存储在文件系统中的已下载 DBPedia 文件。请参阅 URL:https ://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Run-from-a-JAR 。
我需要的是一个等效的 API,比如 Freebase 的 Spotlight。尽管我浏览了很多,但我找不到在 Freebase 三重存储上运行的任何此类工具/API。有人能帮忙吗?
我了解 DBPedia 聚光灯对给定文档进行命名实体识别。为此,它使用存储在文件系统中的已下载 DBPedia 文件。请参阅 URL:https ://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Run-from-a-JAR 。
我需要的是一个等效的 API,比如 Freebase 的 Spotlight。尽管我浏览了很多,但我找不到在 Freebase 三重存储上运行的任何此类工具/API。有人能帮忙吗?
目前 Freebase 中没有用于命名实体识别的等效项目。但是,Freebase 在sameAs.org上有指向 DBpedia 的链接,因此您可以使用 DBpedia Spotlight,然后将 ID 解析回 Freebase(该数据也可在Freebase RDF 转储中获得)。
如果您正在寻找该领域的编码项目,我认为应该可以调整 DBpedia Spotlight 代码,以便您可以使用 Freebase 数据训练其模型。这样做的主要好处是 Freebase 覆盖的实体范围比 DBpedia 更广,因此您可以更好地回忆。此外,您还可以利用 Freebase 中的其他数据(例如“显着类型”)来获得更好的精度。
通过查看 Freebase 中的 /type/object/name 和 /common/topic/alias 属性,您应该能够获得一组良好的实体“表面形式”。任何与维基百科页面对应的 Freebase 实体都将在 /wikipedia/en 命名空间中具有一个或多个 /type/object/key 值。这些对应于 Wikipedia 页面名称(和重定向),这将允许您解析 Wikipedia XML 转储并识别页面上的哪些链接对应于 Freebase 主题。Freebase 密钥编码方案在此处描述。
您可能还对OpenCalais和AlchemyAPI感兴趣,它们提供命名实体识别作为服务并在其 API 响应中提供 Freebase ID。