python - 简单的动态网页抓取 - 没有 BeautifulSoup

Question

我正忙于抓取一个动态网站，以获得一个 URL，每次更新时我都可以使用该 URL 下载游戏的服务器软件。

该网站是“http://craftstud.io/builds”，上面写着“Server XX.XXX”是我想要抓取的。

我真的不希望它因 Javascript 和外部模块而变得复杂，所以如果有一个简单的解决方案，我会全力以赴。

我也无法终生安装第三方模块，例如 BeautifulSoup (Stupid Windows)。

谢谢大家！

score 3 · Accepted Answer

如果您想要简单的东西，请考虑使用简单的正则表达式：

>>> import re
>>> import urllib2
>>> html = urllib2.urlopen("http://craftstud.io/builds").read()
>>> re.search(r"Server \d+\.\d+\.\d+\.\d+", html).group()
'Server 0.1.24.1'

也就是说，如果您可以通过 pip 安装BeautifulSoup4，那么您将来会发现它有很多用途。（确保你使用pip install BeautifulSoup4而不是pip install BeautifulSoup我几天前刚刚在 Windows 机器上安装了一个副本。）

python - 简单的动态网页抓取 - 没有 BeautifulSoup

1 回答 1

Related

Reference