我正在构建一个 Web 应用程序作为大学项目(使用 Python),我需要从网站上读取内容。它可以是互联网上的任何网站。
起初我想使用像 BeautifulSoup、lxml 这样的屏幕抓取工具来读取内容(作者编写的数据),但由于每个网站都是按照不同的标准开发的,所以我无法基于一种逻辑搜索内容。
因此我想到了使用 RSS/Atom(使用 Universal Feed Parser),但我只能得到内容摘要!但我想要所有的内容,而不仅仅是摘要。
那么,有没有一种方法可以让我们使用 BeautifulSoup、lxml 等 lib 读取网站内容的逻辑?
或者我应该使用网站提供的 API。
如果它是博主的博客,我的工作会变得很容易,因为我可以使用 Google Data API,但问题是,我是否需要为同一个工作的每个不同 API 编写代码?
什么是最好的解决方案?