python - 为什么 urllib2 缺少我可以在 Firefox 源代码中看到的表字段？

Question

我从 urllib2 收到的 html 缺少几十个数据字段，当我在 Firefox 中查看 URL 的源时可以看到这些数据字段。任何建议将不胜感激。这是它的样子：

从 FireFox 查看源代码：

# ...<td class=td6>as</td></tr></thead>|ManyFields|<br></div><div id="c1">...

从 urllib2 返回 html：

# ...<td class=td6>as</td></tr></thead>|</table>|<br></div><div id="c1">...

score 2 · Accepted Answer

粗略检查一下，您获得的页面似乎有很多Javascript；也许是 Javascript 合作构建了您在 Firefox 中看到的信息（至少其中一些正在积极地改变页面的内容）。如果你需要抓取富含 JS 的页面，最好的办法是通过Selenium自动化一个实际的浏览器。

score 0 · Accepted Answer

您看到的额外内容是由 JavaScript 生成的。它不是原始 HTML 文档的一部分，因此不会出现在普通的 HTTP 提取器中，例如 urllib2。

2 回答 2