0

我刚开始学习python 3。(我正在阅读python书,我有问题......)

我有问题要阅读并从 html 源代码中查找关键字。

我写了打开网址的代码。例如,

page =urllib.request.urlopen(some url)
text = page.read().decode("utf8")

因此,我假设文本包含所有 html 代码并且文本是对象。

问题 1. 我想用某种数组或数组列表来存储 html 源代码。但是,我不确定如何从“文本”对象中获取代码行并将其存储到某种数组中。

问题2.python是否有“包含”功能可以从数组中找到“堆栈溢出”等特殊关键字?

谢谢。

4

1 回答 1

1

如果您想解析整个 HTML 文档结构,请不要尝试自己编写所有程序 - 就像 Allendar 所说的那样,使用库来处理它。

如果您只想在文本中搜索和查找特定内容,请使用正则表达式(“re”模块)。

在传统意义上的行(CR/LF)中谈论 HTML 的“行”是没有意义的。整个页面可以在一行中。构成 HTML 的是标签,而不是行。

于 2013-04-10T22:29:25.290 回答