我必须解析(报废)网页(html)并获取一些信息,将其存储在 csv 中。
我必须同时使用 Regex 和 BeautifulSoup 来做到这一点,而且我之前绝对没有使用 Python 的经验。
如果有人可以相应地指导我编写代码,我将不胜感激。我设法安装了 python 和 BeautifulSoup。
我必须解析(报废)网页(html)并获取一些信息,将其存储在 csv 中。
我必须同时使用 Regex 和 BeautifulSoup 来做到这一点,而且我之前绝对没有使用 Python 的经验。
如果有人可以相应地指导我编写代码,我将不胜感激。我设法安装了 python 和 BeautifulSoup。
对于 python 3:使用以下命令读取网页:
import urllib.request
your_url = "http://stackoverflow.com/" # for example
opener = urllib.request.FancyURLopener({})
f = opener.open( your_url )
vr = f.read()
vr = vr.decode()
print( vr )
并匹配一些正则表达式,例如:
import re
re_flags = ( re.MULTILINE | re.IGNORECASE | re.UNICODE )
m = re.search( r"<div>\s*(\d*)\s*</div>" , vr , re_flags )
if m :
print( m.groups()[0] )
如果找到正则表达式,则匹配的字符串将写入 m.groups()[0]
显然你必须在 re.search 中使用你的个人正则表达式
这是beautifulsoup doc如何解析HTML,因为你没有指定它..
http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#Parsing a Document
正则表达式,阅读 Giggi 建议的文档,如果您不了解特定内容,请不要害怕问,但我们需要更具体的信息,您到底想解析什么?什么是输入 HTML 以及您期望的结果是什么?