python - 使用 Python 的正则表达式和 BeautifulSoup

Question

我必须解析（报废）网页（html）并获取一些信息，将其存储在 csv 中。

我必须同时使用 Regex 和 BeautifulSoup 来做到这一点，而且我之前绝对没有使用 Python 的经验。

如果有人可以相应地指导我编写代码，我将不胜感激。我设法安装了 python 和 BeautifulSoup。

score 1 · Accepted Answer

对于 python 3：使用以下命令读取网页：

import urllib.request

your_url = "http://stackoverflow.com/"   # for example

opener = urllib.request.FancyURLopener({})
f = opener.open( your_url )
vr = f.read()
vr = vr.decode()
print( vr )

并匹配一些正则表达式，例如：

import re

re_flags = ( re.MULTILINE | re.IGNORECASE | re.UNICODE )
m = re.search( r"<div>\s*(\d*)\s*</div>" , vr , re_flags )
if m :
    print( m.groups()[0] )

如果找到正则表达式，则匹配的字符串将写入 m.groups()[0]

显然你必须在 re.search 中使用你的个人正则表达式

访问： http ://docs.python.org/library/re.html

score 0 · Accepted Answer

这是beautifulsoup doc如何解析HTML，因为你没有指定它..

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#Parsing a Document

正则表达式，阅读 Giggi 建议的文档，如果您不了解特定内容，请不要害怕问，但我们需要更具体的信息，您到底想解析什么？什么是输入 HTML 以及您期望的结果是什么？

python - 使用 Python 的正则表达式和 BeautifulSoup

2 回答 2

Related

Reference