python - 如何在 Python 中使用“html 编写”URL 解析 HTML 代码？

Question

我开始用 Python 编程，并且一直在阅读一些帖子，他们说我应该使用 HTML 解析器从文本而不是重新获取 URL。

我有从 and 获得的page.read()源urllib代码urlopen。

现在，我的问题是解析器正在从文本中删除 url 部分。

另外，如果我没看错，var = page.read(),var是否存储为字符串？

我怎么能告诉它给我两个“标签”之间的文字？URL 总是介于两者之间flv=，;因此它不href以解析器查找的内容开头，也不包含http://任何内容。

我读过很多帖子，但似乎他们都在代码中寻找`href。

我完全错了吗？

谢谢！

score 0 · Accepted Answer

您可以考虑实现自己的搜索/抓取。在伪代码中，它看起来有点像这样：

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

你应该能够在 python 中实现它。

祝你好运！

python - 如何在 Python 中使用“html 编写”URL 解析 HTML 代码？

1 回答 1

Related

Reference