我需要将 HTML 文件存储为文本文件。同名网名。我的代码出了点问题,因此它没有在目录中创建文件。我有写目录的权限。我正在使用 Ubuntu 12.04LTS
目录/home/user1/
文件名打印名称 = Mathrubhumi Sports - ശ്ക്ക് പച്ചക്കൊടി
文件名包含 Unicode 值
import os
from urllib import urlopen
from bs4 import BeautifulSoup
url= "http://www.mathrubhumi.com/sports/story.php?id=397111"
raw = urlopen(url).read()
soup = BeautifulSoup(raw,'lxml')
texts = soup.findAll(text=True)
name = soup.title.text
name= name+'.txt'
def contains_unicode(text):
try:
str(text)
except:
return True
return False
result = ''.join((text for text in texts if contains_unicode(text)))
# Output to a file
with open(os.path.join('/home/user1/textfiles',name,'w') as out:
out.write(result)
请帮我调试一下