python - 训练用刮擦提取href属性

翻译自：https://stackoverflow.com/questions/37731935 2016-06-09T16:50:23.150

221 次

我正在使用Scrapely从 HTML 中提取数据字段。根据文档使用trainthen无法从链接中提取属性。有没有办法以类似于从元素中提取文本的方式提取 href 属性？scrapehref

from scrapely import Scraper
s = Scraper()

url1 = 'http://pypi.python.org/pypi/w3lib/1.1'
data = {'vers_url': 'https://pypi.python.org/pypi/w3lib/1.14.2'}
s.train(url1, data)

url2 = 'http://pypi.python.org/pypi/Django/1.3'
print(s.scrape(url2)) 
# Prints {u'vers_url': [u'\n<span>1.10a1</span>\n']}], should print a url

在上面的训练示例中，给定的 url 是该页面上标签的唯一href属性，a因此我希望算法能够学会找到它。

python - 训练用刮擦提取href属性

0 回答 0

Related

Reference