1

我必须解析(报废)网页(html)并获取一些信息,将其存储在 csv 中。

我必须同时使用 Regex 和 BeautifulSoup 来做到这一点,而且我之前绝对没有使用 Python 的经验。

如果有人可以相应地指导我编写代码,我将不胜感激。我设法安装了 python 和 BeautifulSoup。

4

2 回答 2

1

对于 python 3:使用以下命令读取网页:

import urllib.request

your_url = "http://stackoverflow.com/"   # for example

opener = urllib.request.FancyURLopener({})
f = opener.open( your_url )
vr = f.read()
vr = vr.decode()
print( vr )

并匹配一些正则表达式,例如:

import re

re_flags = ( re.MULTILINE | re.IGNORECASE | re.UNICODE )
m = re.search( r"<div>\s*(\d*)\s*</div>" , vr , re_flags )
if m :
    print( m.groups()[0] )

如果找到正则表达式,则匹配的字符串将写入 m.groups()[0]

显然你必须在 re.search 中使用你的个人正则表达式

访问: http ://docs.python.org/library/re.html

于 2012-09-07T07:20:33.950 回答
0

这是beautifulsoup doc如何解析HTML,因为你没有指定它..

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#Parsing a Document

正则表达式,阅读 Giggi 建议的文档,如果您不了解特定内容,请不要害怕问,但我们需要更具体的信息,您到底想解析什么?什么是输入 HTML 以及您期望的结果是什么?

于 2012-09-07T07:39:03.773 回答