dbpedia - 如何使用 DBPedia 从内容中提取标签/关键字？

Question

我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。

我找到了关于 DBPedia 的文章。DBpedia 是一个社区努力从维基百科中提取结构化信息并在 Web 上提供这些信息。

有人用过他们的网络服务吗？你知道它们是如何工作的以及它有多可靠吗？

score 21 · Accepted Answer

DBpedia是一个很棒的高质量资源。然而，为了将您的内容转化为一组相关的 DBpedia 概念，您需要在文本中准确识别它们，这至少涉及两个步骤：

识别内容中的 DBpedia 概念：这包括识别文本中的概念名称（和替代名称），以及消除每个短语的所有可能含义之间的歧义。术语“太阳”根据其消歧页面可能指代数十种可能的概念，包括明星、报纸、人名等。这涉及到实体识别、分类和链接。
确定其中哪些概念是有趣的：例如，当文本包含术语“the”（The重定向到的）时，您是否希望出现“Definite article”这个概念？

您可能需要考虑一个预先存在的文本分析库或服务，它支持实体链接到 DBpedia。Maui是一个很棒的主题索引工具，它是Alyona Medelyan在攻读博士学位期间开发的。另一个伟大的开源解决方案是同一所大学的 David Milne 的Wikipedia Miner 。

提供与 DBpedia 概念链接的两个商业服务是Zemanta ~~和Extractiv~~（允许一定程度的免费使用）。 DBpedia 聚光灯选项。其他可能提供这些功能的列表如下：https ://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

披露：我 [曾经] 在由Language Computer Corporation的 NLP 提供支持的 Extractiv（已停业）工作。

score 4 · Accepted Answer

您可以在此过程中使用Apache Stanbol。EntityhubApache Stanbol 的组件提供了根据您的需要生成自定义 DBPedia 索引。然后，您可以使用Enhancer组件从文本中提取 Places、Persons、Locations 实体。

以下邮件线程可能对您有所帮助。
http://markmail.org/message/52266yl5ohijxiof

您可以从以下链接访问 Apache Stanbol 的运行演示：http:
//dev.iks-project.eu/

您也可以向stanbol-dev AT incubator.apache.org.

2 回答 2