1

我正在制作一个 python 项目,在其中创建了一个测试 wix 网站。我想使用 urllib 从 wix 网站获取数据(文本)所以我做了 url.urlopen(ADDRESS).readlines() 问题是它没有从页面中的文本中给我任何东西,只有关于结构的信息HTML 格式的页面。我将如何从网站中提取请求的文本信息?

4

1 回答 1

1

我认为您最终需要解析 html 以获得所需的信息。看看这个 python 库:

https://docs.python.org/3/library/html.parser.html

你可能会做这样的事情:

from html.parser import HTMLParser
rel_data = []

class MyHTMLParser(HTMLParser):

    def handle_data(self, data):
         rel_data.append(data)


parser = MyHTMLParser()
parser.feed('<html><head><title>Test</title></head>'
            '<body><h1>Parse me!</h1></body></html>')
print(rel_data)

输出

["Test", "Parse me!"]
于 2018-02-09T18:34:16.137 回答