我正忙于抓取一个动态网站,以获得一个 URL,每次更新时我都可以使用该 URL 下载游戏的服务器软件。
该网站是“http://craftstud.io/builds”,上面写着“Server XX.XXX”是我想要抓取的。
我真的不希望它因 Javascript 和外部模块而变得复杂,所以如果有一个简单的解决方案,我会全力以赴。
我也无法终生安装第三方模块,例如 BeautifulSoup (Stupid Windows)。
谢谢大家!
我正忙于抓取一个动态网站,以获得一个 URL,每次更新时我都可以使用该 URL 下载游戏的服务器软件。
该网站是“http://craftstud.io/builds”,上面写着“Server XX.XXX”是我想要抓取的。
我真的不希望它因 Javascript 和外部模块而变得复杂,所以如果有一个简单的解决方案,我会全力以赴。
我也无法终生安装第三方模块,例如 BeautifulSoup (Stupid Windows)。
谢谢大家!
如果您想要简单的东西,请考虑使用简单的正则表达式:
>>> import re
>>> import urllib2
>>> html = urllib2.urlopen("http://craftstud.io/builds").read()
>>> re.search(r"Server \d+\.\d+\.\d+\.\d+", html).group()
'Server 0.1.24.1'
也就是说,如果您可以通过 pip 安装BeautifulSoup4,那么您将来会发现它有很多用途。(确保你使用pip install BeautifulSoup4
而不是pip install BeautifulSoup
我几天前刚刚在 Windows 机器上安装了一个副本。)