python - 如何从多个 URL 读取 Python 中的 HTML 文件？

Question

我正在编写一个脚本，它将根据以下内容从基本 HTML 页面中提取数据：

URL 中的第一个参数在 -90.0 和 90.0（含）之间浮动，第二组数字在 -180.0 和 180.0（含）之间。该 URL 会将您定向到一个页面，该页面以单个数字作为页面主体（例如，http://jawbone-virality.herokuapp.com/scanner/desert/-89.7/131.56/）。我需要在附加到 URL 的所有页面之间找到最大的病毒式传播数。

所以，现在我让它打印第一个和第二个数字，以及正文中的数字（我们称之为病毒式传播）。它只是打印到控制台，每次我尝试将它写入一个文件时它都会对我产生影响并且我得到错误。任何提示或我遗漏的任何东西？我对 Python 很陌生，所以我不确定我是否遗漏了一些东西。

import shutil
import os
import time
import datetime
import math
import urllib
from array import array
myFile = open('test.html','w')
m = 5
for x in range(-900,900,1):
    for y in range(-1800,1800,1):
        filehandle = urllib.urlopen('http://jawbone-virality.herokuapp.com/scanner/desert/'+str(x/10)+'/'+str(y/10)+'/')
        print 'Planet Desert: (' + str(x/10) +','+ str(y/10) + '), Virality: ' + filehandle.readlines()[0] #lines
        #myFile.write('Planet Desert: (' + str(x/10) +','+ str(y/10) + '), Virality: ' + filehandle.readlines()[0])
myFile.close()
filehandle.close()

谢谢！

score 0 · Accepted Answer

写入文件时，之前的print语句还有吗？那么你的问题是当你调用readlines(). 因此，第二次调用readlines()将返回一个空列表，并且您对第一个元素的访问会导致IndexError.

请参阅此示例执行：

filehandle = urllib.urlopen('http://jawbone-virality.herokuapp.com/scanner/desert/0/0/')
print(filehandle.readlines())  # prints ['5']
print(filehandle.readlines())  # prints []

解决方案是将结果保存到变量中，然后使用它。

filehandle = urllib.urlopen('http://jawbone-virality.herokuapp.com/scanner/desert/0/0/')
res = filehandle.readlines()[0]
print(res)  # prints 5
print(res)  # prints 5

然而，正如评论中已经指出的那样，readlines()不需要在这里调用，因为看起来网站的格式只是一个纯整数。所以线的概念在那里并不真正存在，或者至少没有提供更多信息。所以让我们放弃它以换取更简单的功能read()（甚至不需要readline()）。

filehandle = urllib.urlopen('http://jawbone-virality.herokuapp.com/scanner/desert/0/0/')
res = filehandle.read()
print(res)  # prints 5

您的源代码中还有另一个问题。从你的使用urllib.urlopen()可以得出，您使用的是 Python 2。但是，在 Python 2 中，整数除法的处理方式与 C 或 Java 中的处理方式相同，它们会导致整数舍入到下限。因此，您将调用http://jawbone-virality.herokuapp.com/scanner/desert/-90/-180/十次。

这可以通过以下任一方式解决：

from __future__ import division
str(x / 10.0)和str(y / 10.0)
切换到 Python 3 并使用urllib2

希望我能帮上忙。

python - 如何从多个 URL 读取 Python 中的 HTML 文件？

1 回答 1

Related

Reference