问题标签 [urllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1449 浏览

python - Unicode 问题 Django-Python-URLLIB-MySQL

我正在获取一个网页(http://autoweek.com)并尝试处理它,但出现编码错误。Autoweek 声明“iso-8859-1”编码并带有“Nürburgring”一词(u 带有变音符号)

我愿意:

它给了我以下错误:

如果我绕过 .decode 步骤并使用 lxml 库进行一些解析,则在将解析的标题保存到数据库时会引发错误:

我的数据库有字符集 utf8 和排序规则 utf-general-ci

我的设置:
Django
Python 2.4.3
MySQL 5.0.22
MySQL-python 1.2.1
mod_python 3.2.8

0 投票
2 回答
1019 浏览

python - python urllib,如何查看消息?

如何查看 urllib shttp 请求发送回的消息?如果它是简单的http,我只会查看套接字流量,但当然这不适用于https。有没有我可以设置的调试标志来做到这一点?

0 投票
3 回答
15955 浏览

python - 用于发布多部分/表单数据编码数据的 Python 标准库

我想发布多部分/表单数据编码数据。我找到了一个外部模块:http: //atlee.ca/software/poster/index.html 但是我宁愿避免这种依赖。有没有办法使用标准库来做到这一点?

谢谢

0 投票
2 回答
1210 浏览

python - 相关查询如何从公钥服务器获取公钥

此代码使我能够看到一些网页信息和内容。实际上我有什么查询如何使用 python 函数从任何公钥服务器获取公钥。

0 投票
3 回答
27169 浏览

python - 如何在 urllib.urlretrieve 中捕获 404 错误

背景:我正在使用urllib.urlretrieve,与模块中的任何其他功能相反urllib*,因为挂钩功能支持(见reporthook下文).. 用于显示文本进度条。这是 Python >=2.6。

然而,urlretrieve它是如此愚蠢以至于无法检测 HTTP 请求的状态(例如:它是 404 还是 200?)。

下载具有类似钩子的支持(显示进度条)和体面的 HTTP 错误处理的远程 HTTP 文件的最知名方法是什么?

0 投票
3 回答
1934 浏览

python - Python urllib.urlopen() 调用不适用于浏览器接受的 URL

如果我将 Firefox 指向http://bitbucket.org/tortoisehg/stable/wiki/Home/ReleaseNotes,我会得到一个 HTML 页面。但是如果我在 Python 中尝试这个:

我得到以下信息:

500 Internal Server Error 服务器遇到内部错误或配置错误,无法完成您的请求。

我究竟做错了什么?

0 投票
9 回答
64111 浏览

python - Django:从图像 url 在 ImageField 中添加图像

请原谅我丑陋的英语;-)

想象一下这个非常简单的模型:

我想从图像 URL 创建照片(即,不是在 django 管理站点中手动创建)。

我认为我需要做这样的事情:

我希望我已经很好地解释了这个问题,如果没有告诉我。

谢谢 :)

编辑 :

这可能有效,但我不知道如何转换content为 django 文件:

0 投票
2 回答
2660 浏览

python - Python urllib、minidom 和解析国际字符

当我尝试使用以下 URL 从 Google 天气 API 检索信息时,

http://www.google.com/ig/api?weather=Munich,Germany&hl=de

然后尝试用 minidom 解析它,我收到文档格式不正确的错误。

我使用以下代码

我认为响应中的德语字符是错误的原因。

这样做的正确方法是什么?

0 投票
3 回答
9061 浏览

python - 为什么我用 urllib2 得到 urllib2.HTTPError 而 urllib 没有错误?

我有以下简单的代码:

此代码生成以下错误消息:

但是,如果我用 urllib 替换 urllib2,我不会收到任何错误消息。任何人都可以解释这种行为吗?

0 投票
7 回答
15430 浏览

python - 如何在python中下载任何(!)具有正确字符集的网页?

问题

当使用 python 对网页进行屏幕抓取时,必须知道页面的字符编码。如果你得到错误的字符编码,那么你的输出就会被弄乱。

人们通常使用一些基本的技术来检测编码。它们要么使用标头中的字符集或元标记中定义的字符集,要么使用编码检测器(它不关心元标记或标头)。仅使用其中一种技术,有时您将无法获得与在浏览器中相同的结果。

浏览器这样做:

  • 元标记始终优先(或 xml 定义)
  • 当元标记中没有定义字符集时,使用标头中定义的编码
  • 如果根本没有定义编码,那么就该进行编码检测了。

(嗯......至少我相信大多数浏览器都是这样做的。文档真的很稀缺。)

我正在寻找的是一个可以像浏览器一样决定页面字符集的库。我确信我不是第一个需要适当解决这个问题的人。

解决方案(我还没有尝试过......)

根据Beautiful Soup 的文档

Beautiful Soup 按优先级顺序尝试以下编码,将您的文档转换为 Unicode:

  • 您作为 fromEncoding 参数传递给汤构造函数的编码。
  • 在文档本身中发现的编码:例如,在 XML 声明或(对于 HTML 文档)http-equiv META 标记中。如果 Beautiful Soup 在文档中发现这种编码,它会重新从头开始解析文档并尝试新的编码。唯一的例外是,如果您明确指定了编码,并且该编码确实有效:那么它将忽略它在文档中找到的任何编码。
  • 通过查看文件的前几个字节来嗅探的编码。如果在此阶段检测到编码,它将是 UTF-* 编码、EBCDIC 或 ASCII 之一。
  • chardet 库嗅探到的编码,如果您安装了它。
  • UTF-8
  • Windows-1252