这是我到目前为止所拥有的:
import re
import csv
outfile1 = open('test_output.csv', 'wt')
outfileWriter1 = csv.writer(outfile1, delimiter=',')
rawtext = open('rawtext.txt', 'r').read()
print(rawtext)
rawtext = rawtext.lower()
print(rawtext)
re.sub('[^A-Za-z0-9]+', '', rawtext)
print(rawtext)
首先,当我运行它时,标点符号不会被删除,所以我想知道我的表达是否有问题?
其次,我正在尝试生成一个 .csv 列表,其中包含所有标记有标点符号的单词,例如,一个文本文件,内容为“你好!这是美好的一天”。会输出:
ID, PUNCTUATION, WORD
1, Y, hello
2, Y, its
3, N, a
4, N, nice
5, Y, day
我知道我可以使用 .split() 来拆分单词,但除此之外我不知道该怎么做!任何帮助,将不胜感激。