这可能是一个远远超出我现在技能的项目,但我有大约整整一个月的时间花在它上面,所以我认为我可以做到。我想要构建的是:从各种来源收集有关特定主题的新闻。容易,对吧?只需获取 RSS 源并将其显示在页面上即可。好吧,我想要更高级的东西:删除重复项和自定义演示文稿(即能够定义/更改显示新闻标题的格式)。
我玩过 Yahoo Pipes 和其他一些工具,但我面临两个大问题:
- 一些来源不提供 RSS 提要。如何创建一个?
- 查找和删除重复项的最佳方法是什么。我考虑比较标题并检查是否存在大于 50% 的匹配项。这是一个好习惯吗?
请添加我可能没有考虑过的任何其他内容(问题、建议等)。