我希望我的共享点站点允许用户在已知的 RSS 提要集合中搜索内容。我在概念上想出了几种方法来做到这一点
- 从源头抓取提要(哎呀!)
- 将完整的文章拉入我的共享点站点,然后让我的爬虫抓取它
- 利用现有索引(如 google)
- 使用谷歌实用程序(我的偏好)按需搜索完整文章
那么我能否以某种方式从我的共享点站点允许用户从几十个命名的 rss 提要中搜索完整的文章
谢谢
卡里
我希望我的共享点站点允许用户在已知的 RSS 提要集合中搜索内容。我在概念上想出了几种方法来做到这一点
那么我能否以某种方式从我的共享点站点允许用户从几十个命名的 rss 提要中搜索完整的文章
谢谢
卡里
我不明白为什么从源头抓取提要会出现问题?这似乎是合理的。
创建内容源以指向提要并选择正确的索引计划是相当容易的。如果这不起作用,那么您可以尝试更复杂的方法。
请注意,复制另一个网站的内容以自行托管可能会涉及版权问题(更不用说任何煽动性内容似乎会在您自己的网站上发布的风险)。
- 更新 -
尝试阅读目标站点 robots.txt 以查看(甚至有一个)它是否具有所需的频率。否则,这取决于您要抓取的网站的深度。
如果您只抓取 rss 提要 xml,我怀疑您可以每小时执行一次,而不会惹恼任何人。否则,如果你深入到每篇文章,你可能想要限制它。这在很大程度上取决于您与目标站点的任何关系以及您要访问的站点类型。
查看这篇文章,了解有关 SharePoint 如何处理 robots.txt 的更多信息
(ps目标网站没有把文章放到网上所以没人会看)
开箱即用的爬网程序将尊重 robots.txt,并且对爬网程序影响规则的规定将减少 SharePoint 在外部网站上执行打击的机会。