python - 手动保存的文本文件和使用 Python 编解码器的差异：Lemur Malformed document

Question

我正在使用 Python 编解码器将一些 UTF-8 文本写入文件

#-*-coding:utf-8-*-
import codecs

filename = 'afile'
with codecs.open(filename, encoding='utf-8', mode='w') as fw :
    fw.write('<DOC>\n<DOCNO>')
    fw.write(filename)
    fw.write('</DOCNO>\n<TEXT>\n')        
    fw.write('কাজ'.decode('utf-8'))
    fw.write('\n</TEXT>\n</DOC>')

现在，如果我在包含此文件的目录上运行 Lemur ( http://www.lemurproject.org/ )，Lemur 会告诉我该文档“格式错误”。

0:00: Opened /home/userA/Documents/test_corpus/afile 
0:00: Error in /home/userA/Documents/test_corpus/afile : ../src/TaggedDocumentIterator.cpp(213): Malformed document: /home/userA/Documents/test_corpus/afile

但是，如果我在 gedit 中打开文件，添加一个随机字符并将其删除（以便文件内容保持不变），然后保存文件，那么如果我运行 Lemur，它会完美运行。

0:00: Opened /home/userA/Documents/test_corpus/afile
0:00: Documents parsed: 1 Documents indexed: 1
0:00: Closed /home/userA/Documents/test_corpus/afile

那么，通过 Python 和 gedit 保存文本文件的方式是否存在差异，因为 Lemur 在两种不同情况下的响应不同？

score 2 · Accepted Answer

您正在编写一个在最后一行没有换行符的输出文件：

fw.write('\n</TEXT>\n</DOC>')

GEdit 可能会在保存时添加额外的换行符。添加一个额外的\n：

fw.write('\n</TEXT>\n</DOC>\n')

python - 手动保存的文本文件和使用 Python 编解码器的差异：Lemur Malformed document

1 回答 1

Related

Reference