1

我遇到了 BeautifulSoup 的编码问题。我正在尝试解析 Open Graph 标题,但它忽略了非 ascii 字符。

from bs4 import BeautifulSoup
doc = BeautifulSoup(html,"lxml")
doc.html.head.findAll('meta',attrs={'property':'og:title'})

对于http://mattilintulahti.net/mediablogi/2013/02/11/19-asiaa-joita-et-tieda-mediayhtiosta-nimeltaan-red-bull/它打印出以下内容

19 asiaa joita et tied mediayhtist nimeltn Red Bull

正确的在哪里

19 asiaa joita et tiedä mediayhtiöstä nimeltään Red Bull

关于如何让 utf-8 正常工作的任何建议?

4

1 回答 1

1

我无法重现该问题:

import urllib2
import bs4 as bs
url = 'http://mattilintulahti.net/mediablogi/2013/02/11/19-asiaa-joita-et-tieda-mediayhtiosta-nimeltaan-red-bull/'
html = urllib2.urlopen(url).read()
doc = bs.BeautifulSoup(html, 'lxml')
for meta in doc.html.head.findAll('meta', attrs={'property': 'og:title'}):
    print(meta.attrs['content'])

产量

19 asiaa joita et tiedä mediayhtiöstä nimeltään Red Bull

如果这没有帮助,请显示您的代码。

于 2013-02-14T23:16:07.223 回答