python - 为什么我在他们的原始来源列表中找不到这些词？

Question

我试图在两个不同的文件中找到中文单词，但它没有用，所以我试图在我得到它们的同一个文件中搜索单词，但它似乎也没有找到它？这怎么可能？

chin_split = codecs.open("CHIN_split.txt","r+",encoding="utf-8")

将此用于正则表达式代码。

import re
for n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read()):
    print n in re.findall(ur'[\u4e00-\u9fff]+',chin_split.read())

我怎么只能falses打印？？？

仅供参考，我尝试这样做并且有效：

for x in [1,2,3,4,5,6,6]:
    print x in [1,2,3,4,5,6,6]

顺便提一句

chin_split包含英文希伯来文和中文的单词

一些行来自chin_split.txt：

 he daodan   核导弹     טיל גרעיני     
 hedantou    核弹头     ראש חץ גרעיני      
 helu    阖庐  "ביתו, מעונו 
 helu    阖庐   שם מלך וו בתקופת ה'אביב והסתיו'"      
 huiwu   会晤  להיפגש עם

score 3 · Accepted Answer

您正在多次读取文件描述符，这是错误的。

第一个chin_split.read()将产生所有内容，但其他（在循环内）只会得到一个空字符串。

该循环没有意义，但如果要保留它，请先将文件内容保存在变量中。

python - 为什么我在他们的原始来源列表中找不到这些词？

1 回答 1

Related

Reference