0

我从 urllib2 收到的 html 缺少几十个数据字段,当我在 Firefox 中查看 URL 的源时可以看到这些数据字段。任何建议将不胜感激。这是它的样子:

从 FireFox 查看源代码:

# ...<td class=td6>as</td></tr></thead>|ManyFields|<br></div><div id="c1">...

从 urllib2 返回 html:

# ...<td class=td6>as</td></tr></thead>|</table>|<br></div><div id="c1">...
4

2 回答 2

2

粗略检查一下,您获得的页面似乎有很多Javascript;也许是 Javascript 合作构建了您在 Firefox 中看到的信息(至少其中一些正在积极地改变页面的内容)。如果你需要抓取富含 JS 的页面,最好的办法是通过Selenium自动化一个实际的浏览器。

于 2009-10-07T03:43:09.180 回答
0

您看到的额外内容是由 JavaScript 生成的。它不是原始 HTML 文档的一部分,因此不会出现在普通的 HTTP 提取器中,例如 urllib2。

于 2009-10-07T03:48:52.477 回答