0

有没有办法捕获可见的网页内容或文本,就像从浏览器显示复制以稍后解析(可能使用正则表达式等)?我并不是要清理 html 标签、javascript 等,只显示剩余文本。我想复制所有可见文本,因为某些样式元素可能会隐藏一些 html 文本,而在浏览器中显示时会显示其他文本。到目前为止,我已经研究了 nltk、lxml Cleaner 和 selenium,但没有运气。也许我可以在 selenium 中捕获屏幕截图,然后使用 ocr 提取文本,但这似乎是计算机密集型的?谢谢你的帮助!

4

1 回答 1

2

当然。使用 Selenium 并循环遍历所有可见的、可显示的元素。

于 2012-12-09T13:01:23.927 回答