1

我们正在考虑使用现有的内容分析服务 API 来返回文章中给定的术语相关性分数。

发现了一些非常好的内容分析服务,例如:

  1. 雅虎内容分析服务
  2. 开加来...

但是,我们正在寻找一种方法来返回给定的术语相关性分数

例如,

我们有一个词汇表——主题包含“成本”、“政府”

和一个页面http://www.test.dev/article/1.html

然后我们想使用内容分析服务来检查文章中主题的相关性

所以我们可以决定从我们自己的词汇表中自动标记文章。

谢谢您的帮助。

4

1 回答 1

3

您提到的雅虎内容分析服务可用于识别相关链接和其他元数据。如果您专门寻找词汇术语,您可以尝试使用Yahoo Term Extraction 服务。它接受源文本和查询词。

这是 YQL 控制台中显示的演示查询:

select * from search.termextract where context="Italian sculptors and painters of the renaissance favored the Virgin Mary for inspiration" and query="madonna"

和样本结果:

"results": {
 "Result": [
  "Italian sculptors",
  "the Virgin Mary",
  "painters",
  "the renaissance"
 ]
}

一个重要的警告:雅虎曾表示,Term Extraction 服务将在某个时候关闭。相反,他们建议新开发使用内容分析服务。(来源

如果您想在相同的上下文中尝试该服务结果,还有 OpenCalais 的 YQL 表。

于 2012-12-19T19:58:38.630 回答