在 eumiro 的帮助下删除文本文件中的重复行 - 除了它包含“{”或“}” 我可以成功删除大型文本文件中的重复行。这是从 60MB 到 3MB 文本文件的一大步。
但现在我想删除这样的重复单词:
@INBOOK{Miller1992,
author = {Miller, Rowland S. und Mark R. Leary and Miller, Rowland S. und Mark
R. Leary and Miller, Rowland S. und Mark R. Leary and Miller, Rowland
S. und Mark R. Leary and Miller, Rowland S. und Mark R. Leary and
Miller, Rowland S. und Mark R. Leary and Miller, Rowland S. und Mark
Miller, Rowland S. und Mark R. Leary},
year = {1992},
editor = {Teun A. van Dijk and Teun A. van Dijk and Teun A. van Dijk and Teun
A. van Dijk and Teun A. van Dijk and Teun A. van Dijk and Teun A.
van Dijk and Teun A. van Dijk and Teun A. van Dijk and Teun A. van
Dijk and Teun A. van Dijk and Teun A. van Dijk and Teun A. van Dijk
and Teun A. van Dijk and Teun A. van Dijk and Teun A. van Dijk and
Teun A. van Dijk and Teun A. van Dijk and Teun A. van Dijk and Teun
and Teun A. van Dijk and Teun A. van Dijk and Teun A. van Dijk},
title = {Handbook of discourse analysis (Bd. 3/4)},
结果应如下所示:
@INBOOK{Miller1992,
author = {Miller, Rowland S. und Mark R. Leary},
year = {1992},
editor = {Teun A. van Dijk},
title = {Handbook of discourse analysis (Bd. 3/4)},
文本文件有 70000 行,作者姓名可用于多个条目。因此,只应删除大括号之间的重复项(多行):
author = {Miller, Rowland S. und Mark R. Leary and Miller, Rowland S. und Mark
R. Leary and Miller, Rowland S. und Mark R. Leary and Miller, Rowland
S. und Mark R. Leary and Miller, Rowland S. und Mark R. Leary and
Miller, Rowland S. und Mark R. Leary and Miller, Rowland S. und Mark
Miller, Rowland S. und Mark R. Leary},
我试图修改我的 Python-Skript 删除重复行以删除大括号之间的重复单词,但我被卡住了:
words_seen = set() # holds words already seen
outfile = open("literatur_clean.txt", "w")
for line in open("literatur_dupl.txt", "r"):
if ('{' in line or '}' in line
# some code to check whether the words are duplicate
outfile.close()