3

我是 Python 编程的新手。我在我的 Python 文件中使用以下代码:

import gethtml
import articletext
url = "http://www.thehindu.com/news/national/india-calls-for-resultoriented-steps-at-asem/article5339414.ece"
result = articletext.getArticle(url)
text_file = open("Output.txt", "w")

text_file.write(result)

text_file.close()

该文件articletext.py包含以下代码:

from bs4 import BeautifulSoup
import gethtml
def getArticleText(webtext):
    articletext = ""
    soup = BeautifulSoup(webtext)
    for tag in soup.findAll('p'):
        articletext += tag.contents[0]
    return articletext

def getArticle(url):
    htmltext = gethtml.getHtmlText(url)
    return getArticleText(htmltext)

但我收到以下错误:

UnicodeEncodeError: 'ascii' codec can't encode character u'\u201c' in position 473: ordinal not in range(128)
To print the result into the output file, what proper code should I write ?

The output `result` is text in the form of a paragraph.
4

2 回答 2

5

为了处理 unicode 错误,我们需要将文本编码为 un​​icode(准确地说是 UTF-8)而不是 ascii。为了确保在出现编码错误时它不会引发错误,我们将忽略任何我们没有映射的字符。(您也可以使用 str.encode 给出的“替换”或其他选项。请参阅此处的 Unicode 上的 Python 文档。

打开文件的最佳做法是使用 Python 上下文管理器,即使出现错误也会关闭文件。我在路径中使用斜杠而不是反斜杠来确保它在 Windows 或 Unix/Linux 中有效。

text = text.encode('UTF-8', 'ignore')
with open('/temp/Out.txt', 'w') as file:
    file.write(text)

这相当于

text = text.encode('UTF-8', 'ignore')
try:
    file = open('/temp/Out.txt', 'w')
    file.write(text)
finally:
    file.close()

但是上下文管理器不那么冗长,也不那么容易导致您在错误中间锁定文件。

于 2013-11-11T18:05:24.567 回答
4
text_filefixed = open("Output.txt", "wb")
text_filefixed.write(bytes(result, 'UTF-8')) 
text_filefixed.close()

这应该可以,试一试。

为什么?因为将所有内容保存为字节和 utf-8 它将忽略那些编码错误:D

编辑 确保文件存在于同一文件夹中,否则将此代码放在导入之后,它应该自己创建文件。

text_filefixed = open("Output.txt", "a")
text_filefixed.close()

它创建它,不保存任何内容,关闭文件......但它是自动创建的,无需人工干预。

Edit2 请注意,这仅适用于 3.3.2,但我知道您可以使用此模块在 2.7 中实现相同的功能。一些小的区别是(我认为)2.7 中不需要请求,但你应该检查一下。

from urllib import request
result = str(request.urlopen("http://www.thehindu.com/news/national/india-calls-for-resultoriented-steps-at-asem/article5339414.ece").read())
text_filefixed = open("Output.txt", "wb")
text_filefixed.write(bytes(result, 'UTF-8')) 
text_filefixed.close()

就像我一样,你只会在 2.7 中发现这个错误,在 Python 2.7 中的 urllib.request

于 2013-11-11T18:00:57.123 回答