2

我正忙于抓取一个动态网站,以获得一个 URL,每次更新时我都可以使用该 URL 下载游戏的服务器软件。

该网站是“http://craftstud.io/builds”,上面写着“Server XX.XXX”是我想要抓取的。

我真的不希望它因 Javascript 和外部模块而变得复杂,所以如果有一个简单的解决方案,我会全力以赴。

我也无法终生安装第三方模块,例如 BeautifulSoup (Stupid Windows)。

谢谢大家!

4

1 回答 1

3

如果您想要简单的东西,请考虑使用简单的正则表达式

>>> import re
>>> import urllib2
>>> html = urllib2.urlopen("http://craftstud.io/builds").read()
>>> re.search(r"Server \d+\.\d+\.\d+\.\d+", html).group()
'Server 0.1.24.1'

也就是说,如果您可以通过 pip 安装BeautifulSoup4,那么您将来会发现它有很多用途。(确保你使用pip install BeautifulSoup4而不是pip install BeautifulSoup我几天前刚刚在 Windows 机器上安装了一个副本。)

于 2013-01-21T20:32:39.227 回答