0

当用户在界面中输入书名并显示所有信息时,我需要开发网络应用程序来从不同的电子商务网站(如亚马逊、homeshop18)中提取图书价格。

我的问题是 1)如何将该查询传递给亚马逊网站搜索框,我只能获取与查询相关的页面,而不是抓取整个网站。

2)可以用什么来开发这个应用程序?BeautifulSoup 或 scrappy?API 并非所有电子商务网站都可以使用它

我是python的新手。所以任何帮助都将不胜感激

4

1 回答 1

1

我个人使用 BeautifulSoup 来解析网页,但要注意如果你必须大量解析页面,它会有点慢。我知道lxml更快,但对编码器不太友好。要猜测正确的参数(对于 HTTP GET 或 POST)来获取所需的结果页面,您应该像这样进行:

  1. 打开 Firefox 的 firebug 插件或 Chrome 的集成检查器
  2. 转到您感兴趣的网页,然后进行搜索
  3. 进入 firebug/inspector 查看 Firefox 或 Chrome 发送到网站的 HTTP 请求的参数。
  4. 在您的 python 脚本中重现请求。例如使用 urllib

还有另一种猜测正确的 HTTP GET 或 POST 参数的方法,它是使用像 Wireshark 这样的网络分析器。这是一种更详细的方法,但一旦您使用了 Firefox/Chrome 中的工具,感觉更像是大海捞针。

于 2013-07-08T12:49:31.203 回答