127

我想做这样的事情。

list_of_urls = ['http://www.google.fr/', 'http://www.google.fr/', 
                'http://www.google.cn/', 'http://www.google.com/', 
                'http://www.google.fr/', 'http://www.google.fr/', 
                'http://www.google.fr/', 'http://www.google.com/', 
                'http://www.google.fr/', 'http://www.google.com/', 
                'http://www.google.cn/']

urls = [{'url': 'http://www.google.fr/', 'nbr': 1}]

for url in list_of_urls:
    if url in [f['url'] for f in urls]:
         urls[??]['nbr'] += 1
    else:
         urls.append({'url': url, 'nbr': 1})

我能怎么做 ?我不知道我是否应该对元组进行编辑或找出元组索引?

有什么帮助吗?

4

6 回答 6

238

这是一种非常奇怪的组织事物的方式。如果您存储在字典中,这很容易:

# This example should work in any version of Python.
# urls_d will contain URL keys, with counts as values, like: {'http://www.google.fr/' : 1 }
urls_d = {}
for url in list_of_urls:
    if not url in urls_d:
        urls_d[url] = 1
    else:
        urls_d[url] += 1

用于更新计数字典的代码是 Python 中的常见“模式”。这是很常见的,有一个特殊的数据结构defaultdict,创建只是为了让这更容易:

from collections import defaultdict  # available in Python 2.5 and newer

urls_d = defaultdict(int)
for url in list_of_urls:
    urls_d[url] += 1

如果您defaultdict使用密钥访问 ,并且该密钥不在 中defaultdict,则该密钥会自动添加一个默认值。获取您传入的defaultdict可调用对象,并调用它以获取默认值。在这种情况下,我们通过了 class int; 当 Python 调用int()它时,它返回一个零值。因此,第一次引用 URL 时,它的计数被初始化为零,然后您将计数加一。

但是充满计数的字典也是一种常见的模式,因此 Python 提供了一个现成的类:containers.Counter 您只需Counter通过调用该类创建一个实例,传入任何可迭代对象;它构建了一个字典,其中键是来自可迭代对象的值,值是键出现在可迭代对象中的次数的计数。上面的例子就变成了:

from collections import Counter  # available in Python 2.7 and newer

urls_d = Counter(list_of_urls)

如果您真的需要按照您展示的方式进行操作,最简单和最快的方法是使用这三个示例中的任何一个,然后构建您需要的示例。

from collections import defaultdict  # available in Python 2.5 and newer

urls_d = defaultdict(int)
for url in list_of_urls:
    urls_d[url] += 1

urls = [{"url": key, "nbr": value} for key, value in urls_d.items()]

如果您使用的是 Python 2.7 或更高版本,则可以单行执行:

from collections import Counter

urls = [{"url": key, "nbr": value} for key, value in Counter(list_of_urls).items()]
于 2009-11-07T08:28:18.530 回答
207

使用默认值有效,但也可以:

urls[url] = urls.get(url, 0) + 1

使用.get,如果它不存在,您可以获得默认返回。默认情况下它是无,但在我发给你的情况下,它会是 0。

于 2009-11-07T08:31:00.540 回答
29

使用defaultdict

from collections import defaultdict

urls = defaultdict(int)

for url in list_of_urls:
    urls[url] += 1
于 2009-11-07T08:28:28.973 回答
19

这对我来说总是很好:

for url in list_of_urls:
    urls.setdefault(url, 0)
    urls[url] += 1
于 2010-11-04T12:14:30.853 回答
4

完全按照你的方式去做?您可以使用 for...else 结构

for url in list_of_urls:
    for url_dict in urls:
        if url_dict['url'] == url:
            url_dict['nbr'] += 1
            break
    else:
        urls.append(dict(url=url, nbr=1))

但这很不雅。您真的必须将访问过的网址存储为列表吗?例如,如果将其排序为 dict,由 url 字符串索引,它会更干净:

urls = {'http://www.google.fr/': dict(url='http://www.google.fr/', nbr=1)}

for url in list_of_urls:
    if url in urls:
        urls[url]['nbr'] += 1
    else:
        urls[url] = dict(url=url, nbr=1)

在第二个示例中需要注意一些事项:

  • 看看使用 dict for 如何在测试一个 single 时urls无需遍历整个列表。这种方法会更快。urlsurl
  • 使用dict( )而不是大括号使您的代码更短
  • 使用list_of_urls,urlsurl作为变量名使代码很难解析。最好找一些比较清楚的,比如urls_to_visit,urls_already_visitedcurrent_url。我知道,它更长。但它更清楚。

当然,我假设这dict(url='http://www.google.fr', nbr=1)是对您自己的数据结构的简化,因为否则,urls可能只是:

urls = {'http://www.google.fr':1}

for url in list_of_urls:
    if url in urls:
        urls[url] += 1
    else:
        urls[url] = 1

使用defaultdict姿态可以变得非常优雅:

urls = collections.defaultdict(int)
for url in list_of_urls:
    urls[url] += 1
于 2009-11-07T08:26:21.757 回答
4

除了第一次,每次看到一个单词时,if 语句的测试都会失败。如果您计算大量单词,很多单词可能会出现多次。在一个值的初始化只会发生一次并且该值的增加会发生多次的情况下,使用 try 语句会更便宜:

urls_d = {}
for url in list_of_urls:
    try:
        urls_d[url] += 1
    except KeyError:
        urls_d[url] = 1

您可以阅读更多相关信息: https ://wiki.python.org/moin/PythonSpeed/PerformanceTips

于 2016-06-27T23:42:35.577 回答