问题标签 [urllib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3784 问题

0 投票

2 回答

1449 浏览

python - Unicode 问题 Django-Python-URLLIB-MySQL

我正在获取一个网页（http://autoweek.com）并尝试处理它，但出现编码错误。Autoweek 声明“iso-8859-1”编码并带有“Nürburgring”一词（u 带有变音符号）

我愿意：

它给了我以下错误：

如果我绕过 .decode 步骤并使用 lxml 库进行一些解析，则在将解析的标题保存到数据库时会引发错误：

我的数据库有字符集 utf8 和排序规则 utf-general-ci

我的设置：
Django
Python 2.4.3
MySQL 5.0.22
MySQL-python 1.2.1
mod_python 3.2.8

2009-07-09T03:34:42.027

0 投票

2 回答

1019 浏览

python - python urllib，如何查看消息？

如何查看 urllib shttp 请求发送回的消息？如果它是简单的http，我只会查看套接字流量，但当然这不适用于https。有没有我可以设置的调试标志来做到这一点？

python https urllib

2009-08-09T08:42:45.823

0 投票

3 回答

15955 浏览

python - 用于发布多部分/表单数据编码数据的 Python 标准库

我想发布多部分/表单数据编码数据。我找到了一个外部模块：http: //atlee.ca/software/poster/index.html 但是我宁愿避免这种依赖。有没有办法使用标准库来做到这一点？

谢谢

python encoding post urllib multipart

2009-08-13T07:24:00.323

0 投票

2 回答

1210 浏览

python - 相关查询如何从公钥服务器获取公钥

此代码使我能够看到一些网页信息和内容。实际上我有什么查询如何使用 python 函数从任何公钥服务器获取公钥。

python urllib

jass

2009-08-20T05:32:19.450

0 投票

3 回答

27169 浏览

python - 如何在 urllib.urlretrieve 中捕获 404 错误

背景：我正在使用urllib.urlretrieve，与模块中的任何其他功能相反urllib*，因为挂钩功能支持（见reporthook下文）.. 用于显示文本进度条。这是 Python >=2.6。

然而，urlretrieve它是如此愚蠢以至于无法检测 HTTP 请求的状态（例如：它是 404 还是 200？）。

下载具有类似钩子的支持（显示进度条）和体面的 HTTP 错误处理的远程 HTTP 文件的最知名方法是什么？

python http url urllib

2009-08-20T20:14:39.513

0 投票

3 回答

1934 浏览

python - Python urllib.urlopen() 调用不适用于浏览器接受的 URL

如果我将 Firefox 指向http://bitbucket.org/tortoisehg/stable/wiki/Home/ReleaseNotes，我会得到一个 HTML 页面。但是如果我在 Python 中尝试这个：

我得到以下信息：

500 Internal Server Error 服务器遇到内部错误或配置错误，无法完成您的请求。

我究竟做错了什么？

python urllib bitbucket

2009-08-26T15:09:57.537

0 投票

9 回答

64111 浏览

python - Django：从图像 url 在 ImageField 中添加图像

请原谅我丑陋的英语;-)

想象一下这个非常简单的模型：

我想从图像 URL 创建照片（即，不是在 django 管理站点中手动创建）。

我认为我需要做这样的事情：

我希望我已经很好地解释了这个问题，如果没有告诉我。

谢谢：）

编辑：

这可能有效，但我不知道如何转换content为 django 文件：

python django urllib django-models

user166648

2009-09-08T10:29:43.803

0 投票

2 回答

2660 浏览

python - Python urllib、minidom 和解析国际字符

当我尝试使用以下 URL 从 Google 天气 API 检索信息时，

http://www.google.com/ig/api?weather=Munich,Germany&hl=de

然后尝试用 minidom 解析它，我收到文档格式不正确的错误。

我使用以下代码

我认为响应中的德语字符是错误的原因。

这样做的正确方法是什么？

python internationalization urllib minidom

2009-09-10T21:35:31.500

0 投票

3 回答

9061 浏览

python - 为什么我用 urllib2 得到 urllib2.HTTPError 而 urllib 没有错误？

我有以下简单的代码：

此代码生成以下错误消息：

但是，如果我用 urllib 替换 urllib2，我不会收到任何错误消息。任何人都可以解释这种行为吗？

python urllib2 urllib

2009-09-26T19:46:36.893

0 投票

7 回答

15430 浏览

python - 如何在python中下载任何（！）具有正确字符集的网页？

问题

当使用 python 对网页进行屏幕抓取时，必须知道页面的字符编码。如果你得到错误的字符编码，那么你的输出就会被弄乱。

人们通常使用一些基本的技术来检测编码。它们要么使用标头中的字符集或元标记中定义的字符集，要么使用编码检测器（它不关心元标记或标头）。仅使用其中一种技术，有时您将无法获得与在浏览器中相同的结果。

浏览器这样做：

元标记始终优先（或 xml 定义）
当元标记中没有定义字符集时，使用标头中定义的编码
如果根本没有定义编码，那么就该进行编码检测了。

（嗯......至少我相信大多数浏览器都是这样做的。文档真的很稀缺。）

我正在寻找的是一个可以像浏览器一样决定页面字符集的库。我确信我不是第一个需要适当解决这个问题的人。

解决方案（我还没有尝试过......）

根据Beautiful Soup 的文档。

Beautiful Soup 按优先级顺序尝试以下编码，将您的文档转换为 Unicode：

您作为 fromEncoding 参数传递给汤构造函数的编码。
在文档本身中发现的编码：例如，在 XML 声明或（对于 HTML 文档）http-equiv META 标记中。如果 Beautiful Soup 在文档中发现这种编码，它会重新从头开始解析文档并尝试新的编码。唯一的例外是，如果您明确指定了编码，并且该编码确实有效：那么它将忽略它在文档中找到的任何编码。
通过查看文件的前几个字节来嗅探的编码。如果在此阶段检测到编码，它将是 UTF-* 编码、EBCDIC 或 ASCII 之一。
chardet 库嗅探到的编码，如果您安装了它。
UTF-8
Windows-1252

python character-encoding screen-scraping urllib2 urllib

2009-09-30T00:41:59.640

1 2 3 4 5 6 7 8 9 10

问题标签 [urllib]

问题

解决方案（我还没有尝试过......）

Reference