我想知道是否已经有一个类似于scrapely的库
https://github.com/scrapy/scrapely
它的作用是提供一个示例 url,然后提供要从该 html 中提取的数据。
url1 = 'http://pypi.python.org/pypi/w3lib/1.1'
data = {'name': 'w3lib 1.1', 'author': 'Scrapy project', 'description': 'Library of web-related functions'}
然后您只需通过以下方式启动此规则:
s.train(url1, data)
现在,我可以从不同的 url 中提取相同的数据...
但是有没有任何图书馆可以做同样的事情,但对于原始文本......
例如:
raw_text = "|foo|bar,name = how cool"
然后我想从中提取“bar”。
我知道,我可以编写一个简单的正则表达式规则并完成这个..但是有没有可用的库可以解决这个作为基于实例的学习问题..
即,而不是指定一个正则表达式规则,然后通过它传递数据..
相反,我指定了一个实例以及我想要提取的内容并自动构建规则?
希望我说得有道理。