使用 Python,我想在来源很大的网页上抓取数据(它是某个用户的 Facebook 页面)。
假设 URL 是我要抓取的 URL。我运行以下代码:
import urllib2
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
数据应该包含我正在抓取的页面的来源,但由于某种原因,当我直接与页面的来源进行比较时,它不包含所有可用的字符。我不知道我做错了什么。我知道我要抓取的页面最近没有更新,所以这不是因为我丢失了一些最近的数据。
有人有线索吗?
编辑:我缺少的信息是这样的:
<code class="hidden_elem" id="up82eq_33"><!-- <div class="mbs profileInfoSection"><div class="uiHeader uiHeaderTopAndBottomBorder uiHeaderSection infoSectionHeader"><div class="clearfix uiHeaderTop"><div><h4 tabindex="0" class="uiHeaderTitle">Basic Information</h4></div></div></div><div class="phs"><table class="uiInfoTable mtm profileInfoTable uiInfoTableFixed"><tbody><tr><th class="label">Networks</th><td class="data"><div class="uiCollapsedList uiCollapsedListHidden" id="up82eq_32"><span class="visible">XXXX</span></div></td></tr></tbody></table></div></div> --></code>
基本上是一些我感兴趣的领域。让我吃惊的是我可以得到一些领域,但不是全部。