我有一个将两个文件作为输入的代码:(1)字典/词典(2)一个文本文件(每行一个句子)
我的代码的第一部分以元组形式读取字典,因此输出如下内容:
('mthy3lkw', 'weakBelief', 'U')
('mthy3lkm', 'firmBelief', 'B')
('mthy3lh', 'notBelief', 'A')
代码的第二部分是在文本文件中的每个句子中搜索这些元组中位置 0 的单词,然后打印出句子、搜索词及其类型。
所以给定句子 mthy3lkw ana mesh 3arif ,期望的输出是:
["mthy3lkw ana mesh 3arif", ' mthy3lkw ', 'weakBelief', 'U'] 假设在字典中找到突出显示的单词。
我的代码的第二部分——匹配部分——太慢了。我怎样才能让它更快?
这是我的代码
findings = []
for sentence in data: # I open the sentences file with .readlines()
for word in tuples: # similar to the ones mentioned above
p1 = re.compile('\\b%s\\b'%word[0]) # get the first word in every tuple
if p1.findall(sentence) and word[1] == "firmBelief":
findings.append([sentence, word[0], "firmBelief"])
print findings