好的,我一遍又一遍地考虑它,但我只是python的初学者,我没有找到任何解决方案。这就是我需要做的:我有一个来自 LIWC 的文本文件,后面有各种荷兰语单词和数字:
aaien 12 13 32
aan 10
aanbad 12 13 14 57 58 38
...
然后我从 LIWC 得到一个文本文件,后面有一个数字和一个类别:
01:Pronoun
02:I
03:We
04:Self
05:You
06:Other
...
现在我应该将我自己的语料库与荷兰语单词与这些类别联系起来。所以首先我必须将我的荷兰语单词与 LIWC 单词列表中荷兰语单词后面的数字联系起来,然后我必须将这些数字与这些类别联系起来......我认为制作字典会很有用来自 LIWC 的两个列表。这是我到目前为止所得到的:
with open('LIWC_words.txt', 'rU') as document:
answer = {}
for line in document:
line = line.split()
if not line: #empty line
continue
answer[line[0]] = line[1:]
with open ('LIWC_categories.txt','rU') as document1:
categoriesLIWC = {}
for line in document1:
line = line.strip()
if not line:
continue
key, value = line.split(':')
if key.isdigit():
categoriesLIWC[int(key)] = value
else:
categoriesLIWC[key] = value
所以我现在有两本字典......但现在我被困住了。有谁知道我接下来应该做什么?(我使用 python 2.6.5,因为我主要使用 NLTK)