5

我正在用 python 编写一个 RSS 阅读器作为学习练习,我真的希望能够用关键字标记单个条目以进行搜索。不幸的是,大多数现实世界的提要不包括关键字元数据。目前,我的测试数据库中有大约 60,000 个条目来自大约 600 个提要,因此手动标记不会有效。到目前为止,我只能找到两个解决方案:

1:使用Natural Language Toolkit提取关键词:

  • 优点:灵活;不依赖外部服务;
  • 缺点:只能索引文章摘要,不能索引文章;不平凡:编写高质量的关键字提取工具本身就是一个项目;

2:使用Google Adwords API从文章 url 获取关键字建议:

  • 优点:超高质量的关键字;基于整篇文章;便于使用;
  • 缺点:不是免费的(?);查询速率限制未知;我害怕我的帐户被禁止并且无法为我的商业网站运行 adwords 广告系列;

任何人都可以提供任何建议吗?我担心我的 adwords 帐户被禁止是没有根据的吗?

4

2 回答 2

2

根据您的具体需求,您可能会考虑使用许多免费和商业文本注释工具/服务,如下所列:

有比 OpenCalais 更好的工具吗?.

其中一些提供实体,一些提供关键字相关性的度量,而其他提供主题标签。

于 2011-01-17T20:24:38.970 回答
1

您可以使用美味的建议标签 API

如何通过 python 使用 api 的示例http://www.michael-noll.com/projects/delicious-python-api/

另一种选择是Open Calais

于 2011-01-17T06:14:52.163 回答