python - 从列表中消除半重复项的高性能方法

Question

我有一系列谜题：字母或单词之间没有空格的摩尔斯电码字符串。我的计划是进行字典攻击以找到最佳解决方案候选者。我的武器是蟒蛇。

我有一个包含 17000 个英语单词的列表。我还有一个小得多的与谜题主题相关的单词列表，如果这些单词出现，它们的得分应该更高。

因此，当我生成单词列表时，在脚本的最开始，我使用形式为（单词，scoremultiplier）的元组列表。这是一个小子集：

[('zoned', 1.0), 
 ('zonely', 1.0), 
 ('zoner', 1.0), 
 ('zones', 1.0), 
 ('zoning', 1.0), 
 ('zoo', 1.0), 
 ('zoom', 1.0), 
 ('zoomed', 1.0), 
 ('zooming', 1.0), 
 ('zooms', 1.0), 
 ('zoos', 1.0), 
 ('ten', 1.0), 
 ('tens', 1.0), 
 ('gnash', 1.0), 
 ('shag', 1.0), 
 ('75th', 2.0), 
 ('seventy', 2.0), 
 ('fifth', 2.0)]

在我解析出所有内容的文件中，我只想在最后粘贴高价值的单词，而不是手动删除文件主要部分中的任何重复项。所以我需要写一些东西来摆脱早期元组的第一个值等于后面的元组的值。

我可以用蛮力做到这一点：

for firstkey, (firstword, firstfactor) in enumerate(wordlist):
    for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
        if firstword == laterword:
            del wordlist[firstkey]
            break

但是仅脚本的那部分就需要将近 45 秒，而我的 17000 个单词甚至不是一本完整的字典。（除了完成所需的时间之外，该代码也未经测试，因此它甚至可能无法工作。）虽然我刚刚学习 Python（并且正在做一些我的第一次编程），但它似乎也非常非 Pythony有了这个项目。

有一个更好的方法吗？我不能使用set()，因为重复的单词是不相等元组的一部分。我需要以某种方式重组我的数据吗？还是我应该准备每次运行它时等待整整一分钟？

score 3 · Accepted Answer

我可能误解了这个问题，但看起来你可以dict从元组列表中生成一个。后面的值会自动覆盖前面的值：

lst = [
    ('foo', 1),
    ('bar', 2),
    ('foo', 10)
]

print dict(lst) # {'foo': 10, 'bar': 2}

python - 从列表中消除半重复项的高性能方法

1 回答 1

Related

Reference