问题标签 [urllib2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3386 浏览

python - 如何在python中显示非ascii字符?

我以这种方式使用 Python Shell:

如何打印 s 变量以显示字符 Ã??? 这是第一个也是最简单的问题。真的,我从一个网页中获取内容,该网页包含非 ascii 字符(如前一个字符)和其他带有波浪号(如 á、é、í、ñ 等)的网页。此外,我正在尝试使用这些字符执行正则表达式针对网页内容的模式表达。

这个问题怎么解决??

这是一个正则表达式的示例:

如果我使用 Expresson 应用程序工作正常。

编辑[05/26/2009 16:38]:对不起,关于我的解释。我会尽力解释得更好。

我必须从页面中获取一些文本。我有该页面的网址,并且我有正则表达式来获取该文本。我首先想到的是正则表达式是错误的。我用 Expresso 检查了它并且工作正常,我得到了我想要的文本。所以,我想到的第二件事是打印页面的内容,那是当我看到内容不是我在网页源代码中看到的内容时。区别在于非 ascii 字符,如 á、é、í 等。现在,我不知道我必须做什么以及问题出在页面内容的编码中还是在正则表达式的模式文本中。我定义的正则表达式之一是前一个。

问题将是:使用正则表达式是否有任何问题,其中模式文本具有非 ascii 字符?

0 投票
10 回答
37025 浏览

python - python的wget与urlretrieve

我的任务是从网站下载 Gbs 的数据。数据采用 .gz 文件的形式,每个文件大小为 45mb。

获取文件的简单方法是使用“wget -r -np -A files url”。这将以递归格式下载数据并镜像网站。下载速率非常高 4mb/sec。

但是,只是为了玩耍,我还使用 python 来构建我的 urlparser。

通过 Python 的 urlretrieve 下载速度非常慢,可能是 wget 的 4 倍。下载速率为 500kb/秒。我使用 HTMLParser 来解析 href 标签。

我不确定为什么会这样。有没有这方面的设置。

谢谢

0 投票
2 回答
3574 浏览

python - 如何使用 urllib2 从 Python 中打开的 url 中提取特定数据?

我是 Python 新手,正在制作一个非常基本的网络爬虫。例如,我做了一个简单的函数来加载一个显示在线游戏高分的页面。所以我能够得到html页面的源代码,但是我需要从那个页面中绘制特定的数字。例如,网页如下所示:

http://hiscore.runescape.com/hiscorepersonal.ws?user1=bigdrizzle13

其中“bigdrizzle13”是链接的独特部分。该页面上的数字需要绘制并返回。本质上,我想构建一个程序,我所要做的就是输入“bigdrizzle13”,它可以输出这些数字。

0 投票
1 回答
429 浏览

python - 这个函数在涉及 urllib2 和 BeautifulSoup 的 Python 中做了什么?

所以我之前问了一个关于从 html 页面检索高分的问题,另一个用户给了我以下代码来帮助我。我是python和beautifulsoup的新手,所以我正在尝试逐个浏览其他代码。我了解其中的大部分内容,但我不明白这段代码是什么以及它的功能是什么:

这是整个代码:

0 投票
1 回答
15296 浏览

python - 为什么我在 Python 中使用 BeautifulSoup 得到“'ResultSet' 没有属性 'findAll'”?

所以我正在慢慢学习Python,并试图制作一个简单的函数,从在线游戏的高分页面中提取数据。这是我将其他人的代码重写为一个函数(这可能是问题),但我收到了这个错误。这是代码:

提前致谢。

0 投票
2 回答
1334 浏览

python - Python中的用户认证和文本解析

好吧,我正在开发一个多阶段程序……我无法完成第一阶段……我想做的是登录 Twitter.com,然后阅读用户页面上的所有直接消息。

最终,我将阅读所有直接消息以寻找某些东西,但这应该不难。

到目前为止,这是我的代码

因此,对我做错的事情有一点见解和帮助会很有帮助。

0 投票
3 回答
3287 浏览

python - 使用 Tor 作为代理时 Python urllib2 超时?

我使用 Python 的 urllib2 和 Tor 作为代理来访问网站。当我打开网站的主页时,它工作正常,但是当我尝试查看登录页面(实际上不是登录,只是查看它)时,我收到以下错误...

为了解决这个问题,我做了以下事情:

我仍然收到相同的超时错误。

  1. 这是否意味着网站在服务器端超时?(我不太了解http进程,如果这是一个愚蠢的问题,我很抱歉)
  2. 有什么方法可以纠正它,以便 Python 能够查看该页面?

谢谢,罗伯

0 投票
2 回答
9033 浏览

python - 如何在 python 中使用 cookielib 和 httplib “保持活动”?

在python中,我使用httplib,因为它“保持活动”http连接(与urllib(2)相反)。现在,我想将 cookielib 与 httplib 一起使用,但它们似乎互相讨厌!(无法将它们连接在一起)。

有谁知道该问题的解决方案?

0 投票
2 回答
62349 浏览

python - urllib2 读取到 Unicode

我需要存储可以使用任何语言的网站内容。而且我需要能够在内容中搜索 Unicode 字符串。

我试过类似的东西:

内容是字节流,所以我可以搜索它以查找 Unicode 字符串。

我需要一些方法,当我这样做urlopen然后读取时使用标题中的字符集来解码内容并将其编码为 UTF-8。

0 投票
3 回答
8323 浏览

python - Does urllib2 in Python 2.6.1 support proxy via https

Does urllib2 in Python 2.6.1 support proxy via https?

I've found the following at http://www.voidspace.org.uk/python/articles/urllib2.shtml:

NOTE

Currently urllib2 does not support fetching of https locations through a proxy. This can be a problem.

I'm trying automate login in to web site and downloading document, I have valid username/password.

I've had it working for similar pages but not using HTTPS and I suspect it does not get through proxy - it just gets stuck in the same way as when I did not specify proxy. I need to go out through proxy.

I need to authenticate but not using basic authentication, will urllib2 figure out authentication when going via https site (I supply username/password to site via url)?

EDIT: Nope, I tested with

And I get error:

urllib2.URLError: urlopen error [Errno 8] _ssl.c:480: EOF occurred in violation of protocol