我有一本两层深的字典。也就是说,第一个字典中的每个键都是一个 url,值是另一个字典,每个键是单词,每个值是单词在该 url 上出现的次数。它看起来像这样:
dic = {
'http://www.cs.rpi.edu/news/seminars.html': {
'hyper': 1,
'summer': 2,
'expert': 1,
'koushk': 1,
'semantic': 1,
'feedback': 1,
'sandia': 1,
'lewis': 1,
'global': 1,
'yener': 1,
'laura': 1,
'troy': 1,
'session': 1,
'greenhouse': 1,
'human': 1
...and so on...
字典本身很长,其中有 25 个 url,每个 url 都有另一个字典作为其值,其中包含在 url 中找到的每个单词及其找到的次数。
我想在字典中找到出现在最不同 url 中的一个或多个单词。所以输出应该是这样的:
以下单词在 y 页上出现 x 次:单词列表