任何人都可以帮助我使用 Python 从站点中“提取”东西吗?这是信息:我有带有一组数字的文件夹名称(它们是项目的 ID),我必须使用该 ID 输入页面,然后将页面中的信息“报废”到我的记事本......就像这样:http: //www.somesite.com/pic.mhtml?id=[ID]... 我需要从中提取图片链接(图片链接总是在文件末尾有ID.jpg)并写在记事本中,然后用图片名称替换那个txt名称...图片始终在标题标签中...提前致谢...
问问题
120 次
2 回答
0
您需要的是一个数据抓取工具 - http://www.crummy.com/software/BeautifulSoup/将帮助您从网站上提取数据。然后,您可以将该数据加载到变量中、将其写入文件或执行您通常对数据执行的任何操作。
于 2013-04-27T18:22:49.020 回答
0
您可以尝试解析图像的 html 源代码。尝试类似的东西:
class Parser(object):
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)'
def __crawl(self, url):
images = []
code = urllib.urlopen(url).read()
for line in code.split('\n'):
imagesearch = re.search(self.__rx, line)
if imagesearch:
image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4))
images.append(image)
return images
这是 untestet,您可能需要检查正则表达式
于 2013-04-27T19:46:49.377 回答