我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。
我找到了关于 DBPedia 的文章。DBpedia 是一个社区努力从维基百科中提取结构化信息并在 Web 上提供这些信息。
有人用过他们的网络服务吗?你知道它们是如何工作的以及它有多可靠吗?
我正在探索如何使用维基百科的分类信息从我的内容中提取标签/关键字。
我找到了关于 DBPedia 的文章。DBpedia 是一个社区努力从维基百科中提取结构化信息并在 Web 上提供这些信息。
有人用过他们的网络服务吗?你知道它们是如何工作的以及它有多可靠吗?
DBpedia是一个很棒的高质量资源。然而,为了将您的内容转化为一组相关的 DBpedia 概念,您需要在文本中准确识别它们,这至少涉及两个步骤:
识别内容中的 DBpedia 概念:这包括识别文本中的概念名称(和替代名称),以及消除每个短语的所有可能含义之间的歧义。术语“太阳”根据其消歧页面可能指代数十种可能的概念,包括明星、报纸、人名等。这涉及到实体识别、分类和链接。
确定其中哪些概念是有趣的:例如,当文本包含术语“the”(The重定向到的)时,您是否希望出现“Definite article”这个概念?
您可能需要考虑一个预先存在的文本分析库或服务,它支持实体链接到 DBpedia。Maui是一个很棒的主题索引工具,它是Alyona Medelyan在攻读博士学位期间开发的。另一个伟大的开源解决方案是同一所大学的 David Milne 的Wikipedia Miner 。
提供与 DBpedia 概念链接的两个商业服务是Zemanta 和Extractiv(允许一定程度的免费使用)。 DBpedia 聚光灯选项。其他可能提供这些功能的列表如下:https ://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
披露:我 [曾经] 在由Language Computer Corporation的 NLP 提供支持的 Extractiv(已停业)工作。
您可以在此过程中使用Apache Stanbol。Entityhub
Apache Stanbol 的组件提供了根据您的需要生成自定义 DBPedia 索引。然后,您可以使用Enhancer
组件从文本中提取 Places、Persons、Locations 实体。
以下邮件线程可能对您有所帮助。
http://markmail.org/message/52266yl5ohijxiof
您可以从以下链接访问 Apache Stanbol 的运行演示:http:
//dev.iks-project.eu/
您也可以向stanbol-dev AT incubator.apache.org
.