2

我需要爬取数千个子站点并提取信息。

现在,不幸的是,所讨论的信息不是常规的 HTML 文本,而是动态呈现文本的图像。

如何提取这些图像以进一步处理它们?我在 Python 上使用 Selenium Webdriver。

4

1 回答 1

1

很少有你不能用mechanizeplus做的事情BeautifulSoup。图像的进一步处理可以用pytesser来完成,但是我在那里没有经验。从 Python OCR 方面的知识渊博的人那里得到建议会很有趣。

进口机械化,BeautifulSoup

browser = mechanize.Browser()
html = browser.open("http://www.dreamstime.com/free-photos")
soup = BeautifulSoup.BeautifulSoup(html)
for ii, image in enumerate(soup.findAll('img')):
    _src = image['src']
    if str(_src).startswith('http://') and str(_src).endswith('.jpg'):
        print 'Storing this image:', _src
        data = browser.open(_src).read()
        fl = 'image' + str(ii) + '.jpg'
        with open(fl, 'wb') as f:
            f.write(data)
        f.closed
于 2013-09-02T10:03:42.787 回答