这是我正在阅读的原始文本的示例:
ID: 00000001
SENT: to do something
to 01573831
do 02017283
something 03517283
ID: 00000002
SENT: just an example
just 06482823
an 01298744
example 01724894
现在我正在尝试将其拆分为列表列表。
最顶层列表:通过 ID 所以这里有 2 个元素(完成)
下一级:在每个 ID 内,用换行符分隔
最后一级:在每一行中拆分单词和ID,对于以ID或SENT开头的行,是否拆分无关紧要。在单词和它们的 ID 之间是一个缩进 (\t)
当前代码:
f=open("text.txt","r")
raw=list(f)
text=" ".join(raw)
wordlist=text.split("\n \n ") #split by ID
toplist=wordlist[:2] #just take 2 IDs
编辑:我打算将这些词交叉引用到另一个文本文件以添加它们的词类,这就是为什么我要求提供列表列表的原因。
脚步:
1)使用 .append() 为每个单词添加单词类
2) 使用 "\t".join() 将一条线连接在一起
3) 使用 "\n".join() 连接一个 ID 中的不同行
4) "\n\n".join() 将所有的ID连接成一个字符串
输出:
ID: 00000001
SENT: to do something
to 01573831 prep
do 02017283 verb
something 03517283 noun
ID: 00000002
SENT: just an example
just 06482823 adverb
an 01298744 ind-art
example 01724894 noun