0

这是我要抓取的网站http://www.quickbid.com.tw/

我希望我可以将 class="timestamp" 放入 python 中的变量中,以便我可以以我喜欢的方式解析“timestamp”。

我试过用scrapy来刮“时间戳”,但是因为scrapy不支持javascript生成的数据,我无法得到它。

我还尝试使用 firebug 来监控“quickbid”和我的浏览器之间传输的数据包。我发现每秒都有数据包被传输以同步时间戳。但是我仍然不知道这些数据包是如何生成的。我听说也许 Selenium 可以帮助我实现目标。但是在阅读了 Selenium 的教程(http://www.jroller.com/selenium/)之后,我仍然无法获得如何抓取我想要的数据的线索。

有谁知道如何从这个网站上抓取数据?任何帮助将不胜感激。

4

3 回答 3

1

我通常使用基本请求和 BeautifulSoup 库进行报废。我这样做了:

import requests
from bs4 import BeautifulSoup
r = requests.get("http://www.quickbid.com.tw/")
c = r.content
soup = BeautifulSoup(c,'html.parser')
timestanp = soup.findAll('span',{'class':'timestamp'})
print timestanp

它返回:

[<span class="timestamp">Save91%</span>, <span class="timestamp">Save84%</span>, <span class="timestamp">Save96%</span>, <span class="timestamp">Save99%</span>, <span class="timestamp">Save82%</span>]

希望这是您正在寻找的。

于 2016-07-11T03:59:37.380 回答
0

你绝对可以用 Selenium 做到这一点。事实上这很容易。Selenium 具有适用于许多不同编程语言的插件,因此只需选择您更了解的一种并阅读该特定语言的 Selenium 文档即可。

我个人使用python,它很容易理解。

这是Python 的 selenium 文档

于 2014-01-07T13:19:34.623 回答
0

我终于使用了一个名为 Greasemonkey 的 Firefox 插件来抓取网站。

https://addons.mozilla.org/en-US/firefox/addon/greasemonkey/

Greasemonkey 可以在http://www.quickbid.com.tw/中捕获动态生成的数据

于 2014-01-08T14:01:12.297 回答