python - 如何使用 Python 将 Web 元素解析为记事本？

Question

任何人都可以帮助我使用 Python 从站点中“提取”东西吗？这是信息：我有带有一组数字的文件夹名称（它们是项目的 ID），我必须使用该 ID 输入页面，然后将页面中的信息“报废”到我的记事本......就像这样：http： //www.somesite.com/pic.mhtml?id=[ID]... 我需要从中提取图片链接（图片链接总是在文件末尾有ID.jpg）并写在记事本中，然后用图片名称替换那个txt名称...图片始终在标题标签中...提前致谢...

score 0 · Accepted Answer

您需要的是一个数据抓取工具 - http://www.crummy.com/software/BeautifulSoup/将帮助您从网站上提取数据。然后，您可以将该数据加载到变量中、将其写入文件或执行您通常对数据执行的任何操作。

score 0 · Accepted Answer

您可以尝试解析图像的 html 源代码。尝试类似的东西：

class Parser(object):
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)'

def __crawl(self, url):
    images = []
    code = urllib.urlopen(url).read()
    for line in code.split('\n'):
        imagesearch = re.search(self.__rx, line)
        if imagesearch:
            image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4))
            images.append(image)
    return images

这是 untestet，您可能需要检查正则表达式

python - 如何使用 Python 将 Web 元素解析为记事本？

2 回答 2

Related

Reference