我正在构建一个包含大约 30,000 个文本文件的数据集,用于构建内容分析数据集。我正在尝试使用正则表达式循环批量文件,以提取并删除我需要的数据。
问题:第一个文件看起来不错,但是当我尝试覆盖文件时,每个后续文件都会打印每个前一个文件的字符串。如:
文件 1:文件 1 中的文本 文件 2:文件 2 中的文本 + 文件 1 中的文本 文件 n:文件 n 中的文本 + 文件 1-(n-1) 中的文本 代码如下所示:
import sys
import re
import glob
string = ''
for n in glob.glob("*.txt"):
input = open(n, "r")
s = input.read()
for line in s:
string += line.replace("\n"," ")
input.close()
for n in glob.glob("*.txt"):
input2 = open(n, "w")
input2.write(string)
input2.close