“urllib2”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

10778 浏览

python - 我正在使用 Python urllib2 下载文件。如何检查文件大小？

如果它很大......然后停止下载？我不想下载大于 12MB 的文件。

2009-10-28T11:19:24.610

0 投票

1 回答

910 浏览

python - urlretrieve 返回一个空文件

我正在尝试使用 urlretrieve 从以下形式的 url 下载文件：

http://example.com/download.php?id=6456&name=foo

但由于某种原因，我只是得到一个空洞的回应。

我试过这个问题中建议的方法似乎没有帮助，因为

不包含键“内容处置”，仅

有什么建议么？

python download urllib2 urllib

2009-10-28T20:44:19.633

0 投票

3 回答

58189 浏览

python - 通过url获取json数据并在python中使用（simplejson）

我想这一定有一个简单的答案，但我很挣扎：我想获取一个 url（输出 json）并在 python 中的可用字典中获取数据。我被困在最后一步。

有什么想法我哪里出错了吗？

python json urllib2 simplejson

2009-10-28T23:09:46.093

0 投票

2 回答

3067 浏览

python - 用python抓取一些ofx数据

我试图使用http://www.jongsma.org/gc/scripts/ofx-ba.py从美联银行获取我的银行账户信息。没有运气，我决定尝试使用此示例手动构建一些请求数据

所以，我有这个文件，我想用作请求数据。我们称它为 req.ofxsgml：

然后，在python中，我尝试：

这个命令给了我一个 500 和这个 traceback。我想知道我的请求有什么问题。

访问没有数据且不关心标题的 url，

产生与直接访问该网址相同的东西，

这很明显，但只是一个观察。关于这个主题的一切似乎都已经过时了。希望写一个简单的python ofx模块来开源。也许已经开发了一些我还没有找到的东西？

编辑- 如果我对上述信息进行平面映射：

然后对其进行urlencode并以此作为数据发出请求

python xml urllib2 sgml ofx

2009-11-01T07:36:26.010

0 投票

4 回答

5738 浏览

python - Python 抓取</h1> <div id="body"><p>I want to fetch the title of a webpage which I open using urllib2. What is the best way to do this, to parse the html and find what I need (for now only the -tag but might need more in the future).</a> </h3> <div class="s-post-summary--content-excerpt"> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/python" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">python</a><a href="/tags/urllib2" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">urllib2</a> </div> <div class="s-user-card s-user-cardminimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2009-11-02T09:48:59.420</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-itememphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票</span> </div> <div class="s-post-summary--stats-item " title="1 answers"> <span class="s-post-summary--stats-item-number">1</span> <span class="s-post-summary--stats-item-unit">回答</span> </div> <div class="s-post-summary--stats-item " title="2500 views"> <span class="s-post-summary--stats-item-number">2500</span> <span class="s-post-summary--stats-item-unit">浏览</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/1692396" class="s-link">python - 在 Python 中使用自定义 cookie 打开网页</a> </h3> <div class="s-post-summary--content-excerpt"> <p>例如，我有 cookie</p> <p>我想打开页面<a href="http://website.com" rel="noreferrer">http://website.com</a></p> <p>如何使用我的预定义 cookie 做到这一点？</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/python" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">python</a><a href="/tags/cookies" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">cookies</a><a href="/tags/urllib2" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">urllib2</a> </div> <div class="s-user-card s-user-cardminimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2009-11-07T08:11:30.023</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-itememphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票</span> </div> <div class="s-post-summary--stats-item " title="2 answers"> <span class="s-post-summary--stats-item-number">2</span> <span class="s-post-summary--stats-item-unit">回答</span> </div> <div class="s-post-summary--stats-item " title="626 views"> <span class="s-post-summary--stats-item-number">626</span> <span class="s-post-summary--stats-item-unit">浏览</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/1698487" class="s-link">python - Python：来自 302 的 appengine urllib2 标头</a> </h3> <div class="s-post-summary--content-excerpt"> <p>正常<code>urllib2</code>工作正常：</p> <p>但在 appengine 中，相同的代码显示<code>text/html</code>.</p> <p>我可以解决这个问题吗？为什么会这样？</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/python" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">python</a><a href="/tags/google-app-engine" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">google-app-engine</a><a href="/tags/header" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">header</a><a href="/tags/urllib2" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">urllib2</a> </div> <div class="s-user-card s-user-cardminimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2009-11-09T00:32:22.537</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-itememphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票</span> </div> <div class="s-post-summary--stats-item " title="2 answers"> <span class="s-post-summary--stats-item-number">2</span> <span class="s-post-summary--stats-item-unit">回答</span> </div> <div class="s-post-summary--stats-item " title="6329 views"> <span class="s-post-summary--stats-item-number">6329</span> <span class="s-post-summary--stats-item-unit">浏览</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/1704754" class="s-link">python - 将 urllib2 获取的 gzipped 数据转换为 HTML</a> </h3> <div class="s-post-summary--content-excerpt"> <p>我目前使用 mechanize 来阅读 gzipped 网页，如下所示：</p> <p>我想知道如何将 urllib2 获取的 gzip 压缩数据解压缩为 HTML 文本？</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/python" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">python</a><a href="/tags/gzip" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">gzip</a><a href="/tags/urllib2" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">urllib2</a> </div> <div class="s-user-card s-user-cardminimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2009-11-09T23:55:18.823</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-itememphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票</span> </div> <div class="s-post-summary--stats-item " title="1 answers"> <span class="s-post-summary--stats-item-number">1</span> <span class="s-post-summary--stats-item-unit">回答</span> </div> <div class="s-post-summary--stats-item " title="1894 views"> <span class="s-post-summary--stats-item-number">1894</span> <span class="s-post-summary--stats-item-unit">浏览</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/1706644" class="s-link">python - 带有 URLLIB2 的客户端摘要身份验证 Python 不会记住授权标头信息</a> </h3> <div class="s-post-summary--content-excerpt"> <p>我正在尝试使用 Python 编写一个连接到使用摘要身份验证的自定义 http 服务器的客户端。我可以毫无问题地连接并拉取第一个请求。使用 TCPDUMP（我在 MAC OS X 上——我既是 MAC 又是 Python 菜鸟）我可以看到第一个请求实际上是两个 http 请求，如果您熟悉 RFC2617，您会期望。第一个结果是 401 UNAUTHORIZED。从服务器发回的标头信息被正确地用于生成带有一些自定义授权标头值的第二个请求的标头，这会产生 200 OK 响应和有效负载。</p> <p>一切都很好。感谢 urllib2，我的 HTTPDigestAuthHandler 开启器正在工作。</p> <p>在同一个程序中，我尝试从同一个服务器请求第二个不同的页面。根据 RFC，我希望 TCPDUMP 这次只显示一个请求，使用几乎所有相同的授权标头信息（nc 应该增加）。</p> <p>相反，它从头开始，首先获取 401 并重新生成 200 所需的信息。</p> <p>urllib2 是否有可能让带有摘要身份验证的后续请求回收已知的授权标头值并且只执行一个请求？</p> <p>[重读几次，直到它有意义，我不知道如何使它更清楚]</p> <p>谷歌的收益出乎意料地少，所以我猜不是。我查看了 urllib2.py 的代码，它真的很乱（评论如下：“这不是一个很棒的努力”），所以如果这是一个错误，我不会感到震惊。我注意到我的 Connection Header 已关闭，即使我将其设置为 keepalive，它也会被覆盖。这导致我使用keepalive.py，但这对我也不起作用。</p> <p>Pycurl 也不起作用。</p> <p>我可以手动编写整个交互的代码，但我想尽可能利用现有的库。</p> <p>总之，是否可以使用 urllib2 和摘要身份验证从同一服务器获取 2 个页面，只执行 3 个 http 请求（第一页 2 个，第二个页面 1 个）。</p> <p>如果您碰巧之前尝试过并且已经知道这是不可能的，请告诉我。如果您有其他选择，我会全力以赴。</p> <p>提前致谢。</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/python" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">python</a><a href="/tags/authentication" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">authentication</a><a href="/tags/urllib2" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">urllib2</a><a href="/tags/digest" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">digest</a> </div> <div class="s-user-card s-user-cardminimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2009-11-10T09:29:13.153</span></time> </div> </div> </div> </div><div id="question-summary-71909431" class="s-post-summary js-post-summary" data-post-id="71909431" data-post-type-id="1"> <div class="s-post-summary--stats js-post-summary-stats"> <div class="s-post-summary--stats-item s-post-summary--stats-itememphasized" title="Score of 0"> <span class="s-post-summary--stats-item-number">0</span> <span class="s-post-summary--stats-item-unit">投票</span> </div> <div class="s-post-summary--stats-item " title="1 answers"> <span class="s-post-summary--stats-item-number">1</span> <span class="s-post-summary--stats-item-unit">回答</span> </div> <div class="s-post-summary--stats-item " title="577 views"> <span class="s-post-summary--stats-item-number">577</span> <span class="s-post-summary--stats-item-unit">浏览</span> </div> </div> <div class="s-post-summary--content"> <h3 class="s-post-summary--content-title"> <a href="/questions/1735852" class="s-link">python - 我在urllib2上设置了代理服务器，然后改不了</a> </h3> <div class="s-post-summary--content-excerpt"> <p>正如标题所说，我的代码基本上是这样做的：</p> <p>设置代理，测试代理，做一些很酷的事情</p> <p>但是在第一次设置代理之后，它就一直这样，永远不会改变。这是失败的代码：</p> <p>输出最终是：</p> <p>我现在真的很困惑。</p> <p>谢谢你的时间。</p> <p>PD：从我的家庭 IP 地址响应的脚本只是一个 PHP 回显 $_SERVER['REMOTE_ADDR']。</p> </div> <div class="s-post-summary--meta"> <div class="s-post-summary--meta-tags tags js-tags t-cñ t-ûnet t-aspûnet-mvc t-aspûnet-mvc-4 t-actionfilterattribute"> <a href="/tags/python" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">python</a><a href="/tags/proxy" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">proxy</a><a href="/tags/urllib2" class="post-tag flex--item mt0 js-tagname-cñ" title="" rel="tag">urllib2</a> </div> <div class="s-user-card s-user-card__minimal"> <div class="s-user-card--info"> <div class="s-user-card--link d-flex gs4"> </div> </div> <time class="s-user-card--time" style="margin-left:5px;"> <span title="2022-04-18 08:34:11Z" class="relativetime"> 2009-11-14T22:36:53.487</span></time> </div> </div> </div> </div> </div> <br class="cbt"> <div class="s-pagination site1 themed pager float-left"> <a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=1" rel="" title="Go to page 2">1</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=2" rel="" title="Go to page 2">2</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=3" rel="" title="Go to page 2">3</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=4" rel="" title="Go to page 2">4</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=5" rel="" title="Go to page 2">5</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=6" rel="" title="Go to page 2">6</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=7" rel="" title="Go to page 2">7</a><a class="s-pagination--item js-pagination-item is-selected" href="/tags/urllib2?p=8" rel="" title="Go to page 2">8</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=9" rel="" title="Go to page 2">9</a><a class="s-pagination--item js-pagination-item " href="/tags/urllib2?p=10" rel="" title="Go to page 2">10</a></div> </div> <div id="sidebar" class="show-votes" role="complementary" aria-label="sidebar"> <div class="module js-gps-related-tags" id="related-tags"> <h4 id="h-related-tags">Reference</h4> <div data-name="javascript"> <a href="https://php.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">php</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">1429865</span> </span> </div> <div data-name="javascript"> <a href="https://c-cpp.com" class="post-tag no-tag-menu js-gps-track" target="_blank">c/c++</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">756500</span> </span> </div> <div data-name="javascript"> <a href="https://nginx.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">nginx</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49975</span> </span> </div> <div data-name="javascript"> <a href="https://mongodb.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">mongodb</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">159057</span> </span> </div> <div data-name="javascript"> <a href="https://mybatis.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">mybatis</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">3233</span> </span> </div> <div data-name="javascript"> <a href="https://anaconda.org.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">anaconda</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">13410</span> </span> </div> <div data-name="javascript"> <a href="https://pycharm.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">pycharm</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">14671</span> </span> </div> <div data-name="javascript"> <a href="https://python.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">python</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">1902243</span> </span> </div> <div data-name="javascript"> <a href="https://vscode.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">vscode</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">56040</span> </span> </div> <div data-name="javascript"> <a href="https://dockerdocs.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">docker</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">110988</span> </span> </div> <div data-name="javascript"> <a href="https://github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">github</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49000</span> </span> </div> <div data-name="javascript"> <a href="https://flask.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">flask</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">49129</span> </span> </div> <div data-name="javascript"> <a href="https://ffmpeg.github.net.cn" class="post-tag no-tag-menu js-gps-track" target="_blank">ffmpeg</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">24037</span> </span> </div> <div data-name="javascript"> <a href="https://jmeter.net" class="post-tag no-tag-menu js-gps-track" target="_blank">jmeter</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">16910</span> </span> </div> <div data-name="javascript"> <a href="https://matplotlib.net" class="post-tag no-tag-menu js-gps-track" target="_blank">matplotlib</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">63493</span> </span> </div> <div data-name="javascript"> <a href="https://getbootstrap.net" class="post-tag no-tag-menu js-gps-track" target="_blank">bootstrap</a> <span class="item-multiplier"><span class="item-multiplier-x">×</span> <span class="item-multiplier-count">54641</span> </span> </div> </div> </div> </div> </div> <footer id="footer" class="site-footer js-footer" role="contentinfo"> <div class="site-footer--container"> <div class="site-footer--logo"> <a href="https://stackoverflow.com"><svg aria-hidden="true" class="native svg-icon iconLogoGlyphMd" width="32" height="37" viewBox="0 0 32 37"><path d="M26 33v-9h4v13H0V24h4v9h22Z" fill="#BCBBBB"/><path d="m21.5 0-2.7 2 9.9 13.3 2.7-2L21.5 0ZM26 18.4 13.3 7.8l2.1-2.5 12.7 10.6-2.1 2.5ZM9.1 15.2l15 7 1.4-3-15-7-1.4 3Zm14 10.79.68-2.95-16.1-3.35L7 23l16.1 2.99ZM23 30H7v-3h16v3Z" fill="#F48024"/></svg></a> </div> <nav class="site-footer--nav"> <div class="site-footer--col"> <h5 class="-title"><a href="https://stackoverflow.org.cn" class="js-gps-track" data-gps-track="footer.click({ location: 3, link: 15})">Stack Overflow 中文网</a></h5> <p>遵从 CC BY-SA 知识共享许可协议。</p> </div> </nav> </div> </footer> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?709ff2ad9744e86b5b0eee677fc13ede"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script>  <script async src="https://www.googletagmanager.com/gtag/js?id=G-1MW5BV8G8E"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-1MW5BV8G8E'); </script> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-6117966252207595" crossorigin="anonymous"></script> </body> </html>

问题标签 [urllib2]

python - 我正在使用 Python urllib2 下载文件。如何检查文件大小？

python - urlretrieve 返回一个空文件

python - 通过url获取json数据并在python中使用（simplejson）

python - 用python抓取一些ofx数据