我们正在考虑使用现有的内容分析服务 API 来返回文章中给定的术语相关性分数。
发现了一些非常好的内容分析服务,例如:
- 雅虎内容分析服务
- 开加来...
但是,我们正在寻找一种方法来返回给定的术语相关性分数
例如,
我们有一个词汇表——主题包含“成本”、“政府”
和一个页面http://www.test.dev/article/1.html
然后我们想使用内容分析服务来检查文章中主题的相关性
所以我们可以决定从我们自己的词汇表中自动标记文章。
谢谢您的帮助。
我们正在考虑使用现有的内容分析服务 API 来返回文章中给定的术语相关性分数。
发现了一些非常好的内容分析服务,例如:
但是,我们正在寻找一种方法来返回给定的术语相关性分数
例如,
我们有一个词汇表——主题包含“成本”、“政府”
和一个页面http://www.test.dev/article/1.html
然后我们想使用内容分析服务来检查文章中主题的相关性
所以我们可以决定从我们自己的词汇表中自动标记文章。
谢谢您的帮助。
您提到的雅虎内容分析服务可用于识别相关链接和其他元数据。如果您专门寻找词汇术语,您可以尝试使用Yahoo Term Extraction 服务。它接受源文本和查询词。
这是 YQL 控制台中显示的演示查询:
和样本结果:
"results": {
"Result": [
"Italian sculptors",
"the Virgin Mary",
"painters",
"the renaissance"
]
}
一个重要的警告:雅虎曾表示,Term Extraction 服务将在某个时候关闭。相反,他们建议新开发使用内容分析服务。(来源)
如果您想在相同的上下文中尝试该服务结果,还有 OpenCalais 的 YQL 表。