1

我想从给定的 URL 中获取纯文本(例如,没有 html 标签和实体)。我应该使用什么库来尽快做到这一点?

我已经尝试过(也许有比这更快或更好的东西):

import re
import mechanize
br = mechanize.Browser()
br.open("myurl.com")
vh = br.viewing_html
//<bound method Browser.viewing_html of <mechanize._mechanize.Browser instance at 0x01E015A8>>

谢谢

4

2 回答 2

1

如果该站点不适合您,您可以使用HTML2Text您可以转到HTML2Text github Repo并为 Python 获取它

或者试试这个:

import urllib
from bs4 import*

html = urllib.urlopen('myurl.com').read()
soup = BeautifulSoup(html)
text = soup.get_text()
print text

我不知道它是否摆脱了所有的 js 和东西,但它摆脱了 HTML

做一些谷歌搜索还有许多其他类似的问题

也可以看看Read2Text

于 2013-07-21T07:29:46.980 回答
0

在 Python 3 中,您可以将 HTML 作为字节获取,然后转换为字符串表示形式:

from urllib import request

text = request.urlopen('myurl.com').read().decode('utf8') 
于 2018-09-18T18:13:41.053 回答