1

我试图在两个不同的文件中找到中文单词,但它没有用,所以我试图在我得到它们的同一个文件中搜索单词,但它似乎也没有找到它?这怎么可能?

chin_split = codecs.open("CHIN_split.txt","r+",encoding="utf-8")

将此用于正则表达式代码。

import re
for n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read()):
    print n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read())    

我怎么只能falses打印???

仅供参考,我尝试这样做并且有效:

for x in [1,2,3,4,5,6,6]:
    print x in [1,2,3,4,5,6,6]

顺便提一句

chin_split包含英文希伯来文和中文的单词

一些行来自chin_split.txt

 he daodan   核导弹     טיל גרעיני     
 hedantou    核弹头     ראש חץ גרעיני      
 helu    阖庐  "ביתו, מעונו 
 helu    阖庐   שם מלך וו בתקופת ה'אביב והסתיו'"      
 huiwu   会晤  להיפגש עם      
4

1 回答 1

3

您正在多次读取文件描述符,这是错误的。

第一个chin_split.read()将产生所有内容,但其他(在循环内)只会得到一个空字符串。

该循环没有意义,但如果要保留它,请先将文件内容保存在变量中。

于 2012-08-25T11:58:57.083 回答