我正在尝试通过使用 raw_html = urlopen(url).read() 来使用 python 提取特定的 URL。
当我检查“raw_htm”时,我发现预期的 HTML/文本已被一些文本替换,这些文本基本上告诉我我无法抓取该网站。
但是,当我使用 UNIX/python 中的“curl -O”提取相同的 url 时,页面下载得很好。
差异的原因是什么,我应该在 python 中使用什么方法,以便我可以像在 unix 中使用 curl 命令一样获取 html?
提前感谢您的任何想法!