问题标签 [urllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Unicode 问题 Django-Python-URLLIB-MySQL
我正在获取一个网页(http://autoweek.com)并尝试处理它,但出现编码错误。Autoweek 声明“iso-8859-1”编码并带有“Nürburgring”一词(u 带有变音符号)
我愿意:
它给了我以下错误:
如果我绕过 .decode 步骤并使用 lxml 库进行一些解析,则在将解析的标题保存到数据库时会引发错误:
我的数据库有字符集 utf8 和排序规则 utf-general-ci
我的设置:
Django
Python 2.4.3
MySQL 5.0.22
MySQL-python 1.2.1
mod_python 3.2.8
python - python urllib,如何查看消息?
如何查看 urllib shttp 请求发送回的消息?如果它是简单的http,我只会查看套接字流量,但当然这不适用于https。有没有我可以设置的调试标志来做到这一点?
python - 用于发布多部分/表单数据编码数据的 Python 标准库
我想发布多部分/表单数据编码数据。我找到了一个外部模块:http: //atlee.ca/software/poster/index.html 但是我宁愿避免这种依赖。有没有办法使用标准库来做到这一点?
谢谢
python - 相关查询如何从公钥服务器获取公钥
此代码使我能够看到一些网页信息和内容。实际上我有什么查询如何使用 python 函数从任何公钥服务器获取公钥。
python - 如何在 urllib.urlretrieve 中捕获 404 错误
背景:我正在使用urllib.urlretrieve
,与模块中的任何其他功能相反urllib*
,因为挂钩功能支持(见reporthook
下文).. 用于显示文本进度条。这是 Python >=2.6。
然而,urlretrieve
它是如此愚蠢以至于无法检测 HTTP 请求的状态(例如:它是 404 还是 200?)。
下载具有类似钩子的支持(显示进度条)和体面的 HTTP 错误处理的远程 HTTP 文件的最知名方法是什么?
python - Python urllib.urlopen() 调用不适用于浏览器接受的 URL
如果我将 Firefox 指向http://bitbucket.org/tortoisehg/stable/wiki/Home/ReleaseNotes,我会得到一个 HTML 页面。但是如果我在 Python 中尝试这个:
我得到以下信息:
500 Internal Server Error 服务器遇到内部错误或配置错误,无法完成您的请求。
我究竟做错了什么?
python - Django:从图像 url 在 ImageField 中添加图像
请原谅我丑陋的英语;-)
想象一下这个非常简单的模型:
我想从图像 URL 创建照片(即,不是在 django 管理站点中手动创建)。
我认为我需要做这样的事情:
我希望我已经很好地解释了这个问题,如果没有告诉我。
谢谢 :)
编辑 :
这可能有效,但我不知道如何转换content
为 django 文件:
python - Python urllib、minidom 和解析国际字符
当我尝试使用以下 URL 从 Google 天气 API 检索信息时,
http://www.google.com/ig/api?weather=Munich,Germany&hl=de
然后尝试用 minidom 解析它,我收到文档格式不正确的错误。
我使用以下代码
我认为响应中的德语字符是错误的原因。
这样做的正确方法是什么?
python - 为什么我用 urllib2 得到 urllib2.HTTPError 而 urllib 没有错误?
我有以下简单的代码:
此代码生成以下错误消息:
但是,如果我用 urllib 替换 urllib2,我不会收到任何错误消息。任何人都可以解释这种行为吗?
python - 如何在python中下载任何(!)具有正确字符集的网页?
问题
当使用 python 对网页进行屏幕抓取时,必须知道页面的字符编码。如果你得到错误的字符编码,那么你的输出就会被弄乱。
人们通常使用一些基本的技术来检测编码。它们要么使用标头中的字符集或元标记中定义的字符集,要么使用编码检测器(它不关心元标记或标头)。仅使用其中一种技术,有时您将无法获得与在浏览器中相同的结果。
浏览器这样做:
- 元标记始终优先(或 xml 定义)
- 当元标记中没有定义字符集时,使用标头中定义的编码
- 如果根本没有定义编码,那么就该进行编码检测了。
(嗯......至少我相信大多数浏览器都是这样做的。文档真的很稀缺。)
我正在寻找的是一个可以像浏览器一样决定页面字符集的库。我确信我不是第一个需要适当解决这个问题的人。
解决方案(我还没有尝试过......)
Beautiful Soup 按优先级顺序尝试以下编码,将您的文档转换为 Unicode:
- 您作为 fromEncoding 参数传递给汤构造函数的编码。
- 在文档本身中发现的编码:例如,在 XML 声明或(对于 HTML 文档)http-equiv META 标记中。如果 Beautiful Soup 在文档中发现这种编码,它会重新从头开始解析文档并尝试新的编码。唯一的例外是,如果您明确指定了编码,并且该编码确实有效:那么它将忽略它在文档中找到的任何编码。
- 通过查看文件的前几个字节来嗅探的编码。如果在此阶段检测到编码,它将是 UTF-* 编码、EBCDIC 或 ASCII 之一。
- chardet 库嗅探到的编码,如果您安装了它。
- UTF-8
- Windows-1252