20

我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。

我找到了关于 DBPedia 的文章。DBpedia 是一个社区努力从维基百科中提取结构化信息并在 Web 上提供这些信息。

有人用过他们的网络服务吗?你知道它们是如何工作的以及它有多可靠吗?

4

2 回答 2

21

DBpedia是一个很棒的高质量资源。然而,为了将您的内容转化为一组相关的 DBpedia 概念,您需要在文本中准确识别它们,这至少涉及两个步骤:

  1. 识别内容中的 DBpedia 概念:这包括识别文本中的概念名称(和替代名称),以及消除每个短语的所有可能含义之间的歧义。术语“太阳”根据其消歧页面可能指代数十种可能的概念,包括明星、报纸、人名等。这涉及到实体识别、分类和链接。

  2. 确定其中哪些概念是有趣的:例如,当文本包含术语“the”(The重定向到的)时,您是否希望出现“Definite article”这个概念?

您可能需要考虑一个预先存在的文本分析库或服务,它支持实体链接到 DBpedia。Maui是一个很棒的主题索引工具,它是Alyona Medelyan在攻读博士学位期间开发的。另一个伟大的开源解决方案是同一所大学的 David Milne 的Wikipedia Miner 。

提供与 DBpedia 概念链接的两个商业服务是Zemanta Extractiv(允许一定程度的免费使用)。 DBpedia 聚光灯选项。其他可能提供这些功能的列表如下:https ://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

披露:我 [曾经] 在由Language Computer Corporation的 NLP 提供支持的 Extractiv(已停业)工作。

于 2011-01-20T16:52:11.887 回答
4

您可以在此过程中使用Apache StanbolEntityhubApache Stanbol 的组件提供了根据您的需要生成自定义 DBPedia 索引。然后,您可以使用Enhancer组件从文本中提取 Places、Persons、Locations 实体。

以下邮件线程可能对您有所帮助。
http://markmail.org/message/52266yl5ohijxiof

您可以从以下链接访问 Apache Stanbol 的运行演示:http:
//dev.iks-project.eu/

您也可以向stanbol-dev AT incubator.apache.org.

于 2011-10-26T20:26:10.727 回答