我需要从荷兰语文本中提取主谓宾三元组。文本由名为Frog的荷兰 NLP 工具进行分析,该工具对其进行标记、解析、标记、词形还原……它。Frog 生成 FoLiA XML 或制表符分隔的列格式输出,每个标记一行。由于 XML 文件存在一些问题,我选择使用列格式。这个例子代表一个句子。现在我需要为每个句子提取 SVO 三元组,因此我需要最后一列是依赖关系。所以我需要获取ROOT元素以及属于ROOT的su和obj1元素。不幸的是,例句没有obj1。让我们假装它有。我的想法是首先创建一个嵌套列表,每个句子都有一个列表。
import csv
with open('romanfragment_frogged.tsv','r') as f:
reader = csv.reader(f,delimiter='\t')
tokens = []
sentences = []
list_of_sents = []
for line in reader:
tokens.append(line)
#print(tokens)
for token in tokens:
if token == '1':
previous_sentence = list_of_sents
sentences.append(previous_sentence)
list_of_sents = []
list_of_sents.append(tokens)
print(list_of_sents)
当我打印“令牌”时,我会得到一份包含所有令牌的列表。所以这是正确的,但我仍在尝试创建一个嵌套列表,每个句子有 1 个(令牌)列表。有人可以帮我解决这个问题吗?
(PS第二个问题是我不确定,一旦我得到一个嵌套列表如何继续)