我正在用 python 编写一个 RSS 阅读器作为学习练习,我真的希望能够用关键字标记单个条目以进行搜索。不幸的是,大多数现实世界的提要不包括关键字元数据。目前,我的测试数据库中有大约 60,000 个条目来自大约 600 个提要,因此手动标记不会有效。到目前为止,我只能找到两个解决方案:
1:使用Natural Language Toolkit提取关键词:
- 优点:灵活;不依赖外部服务;
- 缺点:只能索引文章摘要,不能索引文章;不平凡:编写高质量的关键字提取工具本身就是一个项目;
2:使用Google Adwords API从文章 url 获取关键字建议:
- 优点:超高质量的关键字;基于整篇文章;便于使用;
- 缺点:不是免费的(?);查询速率限制未知;我害怕我的帐户被禁止并且无法为我的商业网站运行 adwords 广告系列;
任何人都可以提供任何建议吗?我担心我的 adwords 帐户被禁止是没有根据的吗?