python - 像从浏览器复制一样捕获可见的网页内容（或文本）

Question

有没有办法捕获可见的网页内容或文本，就像从浏览器显示复制以稍后解析（可能使用正则表达式等）？我并不是要清理 html 标签、javascript 等，只显示剩余文本。我想复制所有可见文本，因为某些样式元素可能会隐藏一些 html 文本，而在浏览器中显示时会显示其他文本。到目前为止，我已经研究了 nltk、lxml Cleaner 和 selenium，但没有运气。也许我可以在 selenium 中捕获屏幕截图，然后使用 ocr 提取文本，但这似乎是计算机密集型的？谢谢你的帮助！

score 2 · Accepted Answer

2

当然。使用 Selenium 并循环遍历所有可见的、可显示的元素。

于 2012-12-09T13:01:23.927 回答

python - 像从浏览器复制一样捕获可见的网页内容（或文本）

1 回答 1

Related

Reference