我对 Python(和网络抓取)非常陌生。让我问你一个问题。
许多网站实际上并没有在 Firefox 或其他浏览器中报告其特定的 URL。例如,Social Security Admin 显示带有排名的流行婴儿名字(自 1880 年以来),但是当我将年份从 1880 更改为 1881 时,url 并没有改变。它是不断的,
http://www.ssa.gov/cgi-bin/popularnames.cgi
因为不知道具体的网址,所以无法使用 urllib 下载网页。
在此页面源中,它包括:
<input type="text" name="year" id="yob" size="4" value="1880">
所以大概,如果我能控制这个“年份”值(比如,“1881”或“1991”),我可以处理这个问题。我对吗?我仍然不知道该怎么做。
有人可以告诉我解决方案吗?
如果您知道一些可能有助于我学习的网站,请告诉我。
谢谢!