python - Python中列表的相似性-根据客户的特征比较客户

Question

我有以下格式的客户和功能列表：

UserID, Feature1, Feature2, Feature3, Feature4

所以我有一个列表——叫做“客户”——它看起来像这样：

[
['975676924', '1345207523', '-1953633084', '-2041119774', '587903155'], 
['1619201613', '-1384105381', '1433106581', '1445361759', '587903155'], 
['-1470352544', '-1068707556', '-1002282042', '-563691616', '587903155'], 
['-1958275692', '-739953679', '69580355', '-481818422', '587903155'],
['1619201613', '-739953679', '-1002282042', '-481818422', '587903155']
]

每一行都是具有特定特征的事务。每行中的第一个元素是执行该交易的用户 ID（客户）。因此，Customers[1]给出第二行并Customers[1][0]给出该行的 UserID ( 1619201613)。

用户 ID 可以在其他行（新交易）中重复，因为重复客户将被附加到列表中。因此，例如，请注意给出相同Customers[4][0]的 UserID ( 1619201613)，但的功能与Customers[4]Customers[1]

所以这里的核心问题是：如何有效地计算列表中每两个不同客户之间的相似度？
我认为这个问题实际上应该分为两个不同的问题/任务：

将不同的 UserID 组合在一起。所以第一个问题是：我如何有效地将单个 UserID 的所有不同特征组合在一起，例如，Customers[1]并将Customers[4]它们放入一个新行（新列表？）中：
['1619201613', '-1384105381', '1433106581', '1445361759', '587903155', '-739953679', '-1002282042', '-481818422']
通过交易发现客户的相似性。所以第二个问题是：我如何有效地评估一个相似性函数，[0,1]它告诉我两个不同的客户是否对相同的东西感兴趣？

PS。一些附加说明：

特征的顺序无关紧要，因为它们是散列的并且是唯一标识的。
特征的基数也无关紧要，即，我们不关心相同的特征是否针对相同的用户 ID 出现两次或三次。
整个事情的最终结果是能够获得一个客户网络，其中用户 ID 是节点，它们之间的边由相似度得分加权。
我倾向于更喜欢余弦相似度或 Jaccard 索引，但对替代方案持开放态度。
我需要速度和可扩展性，即使这会在一定程度上牺牲一些准确性。
我已经彻底检查了以前的问题 - 例如，以下问题不相关：计算两个列表的相似性；Python 检查多个列表的相似性；如何计算特征列表之间的相似度？

score 1 · Accepted Answer

这回答了您问题的第一部分：

raw_data = [
['975676924', '1345207523', '-1953633084', '-2041119774', '587903155'],
['1619201613', '-1384105381', '1433106581', '1445361759', '587903155'],
['-1470352544', '-1068707556', '-1002282042', '-563691616', '587903155'],
['-1958275692', '-739953679', '69580355', '-481818422', '587903155'],
['1619201613', '-739953679', '-1002282042', '-481818422', '587903155']
]

import collections
data = collections.defaultdict(list)

for line in raw_data:
    data[line[0]].extend(line[1:])

现在你有了一个以 id 为键的字典：

defaultdict(<type 'list'>, {
'1619201613': 
         ['-1384105381', '1433106581', '1445361759', '587903155',
          '-739953679', '-1002282042', '-481818422', '587903155'],  
'-1470352544': 
         ['-1068707556', '-1002282042', '-563691616', '587903155'], 
 '975676924': 
        ['1345207523', '-1953633084', '-2041119774', '587903155'],
 '-1958275692':
         ['-739953679', '69580355', '-481818422', '587903155']})

您将通过重新排列获得所需的列表：

data_list = [[key] + value for key, value in data.items()]

score 1 · Accepted Answer

第 1 步：假设您的列表名为 l 对不同的用户进行分组

summary = {}  # init a map for group
for entry in l:
    if summary[entry[0]]:
        summary[entry[0]] += entry[1:]
    else:
        summary[entry[0]] = entry[1:]

# delete duplicate element
for s in summary:
    summary[s] = [int(x) for x in list(set(summary[s]))]

第二步：构建一个网络，实际上是一个二维数组，计算不同用户之间的相似度。

# the row and column number of this array
cnt = len(summary) 
network = [[0] * cnt] * cnt

index = [x for x in summary]
for x, xvalue in enumerate(index):
    for y, yvalue in enumerate(index):
        common = len(set(summary[xvalue]) & set(summary[yvalue]))
        network[x][y] = common

现在网络是一个二维数组，包含每个 UserID 之间的公共项目编号。

例如，您的列表是：

[['100', '2', '3','4'],
 ['110', '2', '5', '6'],
 ['120', '6', '3', '4']]

那么网络是：

[[3, 1, 2],
 [1, 3, 1],
 [2, 1, 3]]

一些代码取自这个问题

python - Python中列表的相似性-根据客户的特征比较客户

2 回答 2

Related

Reference