我用 python 和 selenium 做了一个抓取脚本。它从西班牙语网站上抓取数据:
for i, line in enumerate(browser.find_elements_by_xpath(xpath)):
tds = line.find_elements_by_tag_name('td') # takes <td> tags from line
print tds[0].text # FIRST PRINT
if len(tds)%2 == 0: # takes data from lines with even quantity of cells only
data.append([u"".join(tds[0].text), u"".join(tds[1].text), ])
print data # SECOND PRINT
第一个打印语句给了我一个正常的西班牙语字符串。但是第二次打印给了我一个像这样的字符串:"Data de Distribui\u00e7\u00e3o"
. 这是什么原因?