python - 使用 Python 查询网页

Question

我正在学习使用 Python 进行 Web 编程，我正在进行的练习之一如下：我正在编写一个 Python 程序来查询网站“orbitz.com”并返回最低机票。出发和到达城市和日期用于构建 URL。

我正在使用 urlopen 命令执行此操作，如下所示：

（search_str 包含 URL）

from lxml.html import parse

from urllib2 import urlopen

parsed = parse(urlopen(search_str))

doc = parsed.getroot()

links = doc.findall('.//a')

the_link = (links[j].text_content()).strip()

这个想法是从查询结果中检索所有链接并搜索“Delta”、“United”等字符串，然后读取链接旁边的美元金额。

直到今天它都成功运行 - 看起来 orbitz.com 已经更改了他们的输出页面。现在，当您在 orbitz.com 网站上输入旅行详细信息时，会出现一个页面，显示一个轮子，上面写着“查找行程”或类似的内容。这只是一个填充页面，不包含任何真实信息。几秒钟后，显示实际结果页面。不幸的是，Python 代码每次都返回填充页面的链接，而我从未获得真正的结果。

我怎样才能解决这个问题？我是网络编程的相对初学者，因此非常感谢任何帮助。

score 0 · Accepted Answer

这种事情在爬虫的世界里很正常。

您需要做的是找出在“行程页面”之后重定向到的 url，然后直接从脚本中点击该 url。

然后确定他们是否也更改了最终搜索结果页面，如果是，请修改您的脚本以适应这些更改。

python - 使用 Python 查询网页

1 回答 1

Related

Reference