0

我需要将 HTML 文件存储为文本文件。同名网名。我的代码出了点问题,因此它没有在目录中创建文件。我有写目录的权限。我正在使用 Ubuntu 12.04LTS

目录/home/user1/ 文件名打印名称 = Mathrubhumi Sports - ശ്ക്ക് പച്ചക്കൊടി

文件名包含 Unicode 值

  import os
    from urllib import urlopen
    from bs4 import BeautifulSoup
    url= "http://www.mathrubhumi.com/sports/story.php?id=397111"
    raw = urlopen(url).read()
    soup = BeautifulSoup(raw,'lxml')
    texts = soup.findAll(text=True)
    name = soup.title.text
    name= name+'.txt'
    def contains_unicode(text):
        try:
            str(text)
        except:
            return True
        return False

    result = ''.join((text for text in texts if contains_unicode(text)))

    # Output to a file
    with open(os.path.join('/home/user1/textfiles',name,'w') as out:
        out.write(result)

请帮我调试一下

4

1 回答 1

1

我试过了,它成功了,它在当前目录中创建了一个名为 Mathrub*.txt 的文件,其中包含一些文本。

import codecs
import os
from urllib import urlopen
from bs4 import BeautifulSoup
url= "http://www.mathrubhumi.com/sports/story.php?id=397111"
raw = urlopen(url).read()
soup = BeautifulSoup(raw,'lxml')
texts = soup.findAll(text=True)
name = soup.title.string
name= name+'.txt'
def contains_unicode(text):
    try:
        str(text)
    except:
        return True
    return False

result = ''.join((text for text in texts if contains_unicode(text)))
# Output to a file
with codecs.open(name,'w',encoding="utf-8") as out:
    out.write(result)

在添加编解码器部分之前,它大声抱怨试图编写一些它不知道如何解释的字符。

于 2013-10-16T07:22:06.797 回答