1

我正在构建一个 Web 应用程序作为大学项目(使用 Python),我需要从网站上读取内容。它可以是互联网上的任何网站。

起初我想使用像 BeautifulSoup、lxml 这样的屏幕抓取工具来读取内容(作者编写的数据),但由于每个网站都是按照不同的标准开发的,所以我无法基于一种逻辑搜索内容。

因此我想到了使用 RSS/Atom(使用 Universal Feed Parser),但我只能得到内容摘要!但我想要所有的内容,而不仅仅是摘要。

那么,有没有一种方法可以让我们使用 BeautifulSoup、lxml 等 lib 读取网站内容的逻辑?

或者我应该使用网站提供的 API。

如果它是博主的博客,我的工作会变得很容易,因为我可以使用 Google Data API,但问题是,我是否需要为同一个工作的每个不同 API 编写代码?

什么是最好的解决方案?

4

2 回答 2

7

使用网站的公共 API(如果存在)是迄今为止最好的解决方案。这就是 API 存在的原因,它是网站管理员所说的“使用我们的内容”的方式。抓取可能会在一天工作并在下一天中断,这并不意味着网站管理员同意重用其内容。

于 2012-06-16T05:44:34.430 回答
0

您可以查看内容提取库——我使用了全文 RSS (php) 和Boilerpipe (java)。
两者都有可用的网络服务,因此您可以轻松测试它是否满足您的要求。您也可以自己下载并运行它们,并进一步修改其在各个站点上的行为。

于 2012-06-17T08:59:11.937 回答