2

我开始用 Python 编程,并且一直在阅读一些帖子,他们说我应该使用 HTML 解析器从文本而不是重新获取 URL。

我有从 and 获得的page.read()urllib代码urlopen

现在,我的问题是解析器正在从文本中删除 url 部分。

另外,如果我没看错,var = page.read(),var是否存储为字符串?

我怎么能告诉它给我两个“标签”之间的文字?URL 总是介于两者之间flv=;因此它不href以解析器查找的内容开头,也不包含http://任何内容。

我读过很多帖子,但似乎他们都在代码中寻找`href。

我完全错了吗?

谢谢!

4

1 回答 1

0

您可以考虑实现自己的搜索/抓取。在伪代码中,它看起来有点像这样:

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

你应该能够在 python 中实现它。

祝你好运!

于 2013-03-24T21:07:22.087 回答