python - 我应该使用 Screen Scrapers 还是 API 从网站读取数据

Question

我正在构建一个 Web 应用程序作为大学项目（使用 Python），我需要从网站上读取内容。它可以是互联网上的任何网站。

起初我想使用像 BeautifulSoup、lxml 这样的屏幕抓取工具来读取内容（作者编写的数据），但由于每个网站都是按照不同的标准开发的，所以我无法基于一种逻辑搜索内容。

因此我想到了使用 RSS/Atom（使用 Universal Feed Parser），但我只能得到内容摘要！但我想要所有的内容，而不仅仅是摘要。

那么，有没有一种方法可以让我们使用 BeautifulSoup、lxml 等 lib 读取网站内容的逻辑？

或者我应该使用网站提供的 API。

如果它是博主的博客，我的工作会变得很容易，因为我可以使用 Google Data API，但问题是，我是否需要为同一个工作的每个不同 API 编写代码？

什么是最好的解决方案？

score 7 · Accepted Answer

使用网站的公共 API（如果存在）是迄今为止最好的解决方案。这就是 API 存在的原因，它是网站管理员所说的“使用我们的内容”的方式。抓取可能会在一天工作并在下一天中断，这并不意味着网站管理员同意重用其内容。

score 0 · Accepted Answer

您可以查看内容提取库——我使用了全文 RSS (php) 和Boilerpipe (java)。
两者都有可用的网络服务，因此您可以轻松测试它是否满足您的要求。您也可以自己下载并运行它们，并进一步修改其在各个站点上的行为。

2 回答 2