python - 非常大数据集的余弦相似度

Question

我在计算 100 维向量的大列表之间的余弦相似度时遇到了麻烦。当我使用时from sklearn.metrics.pairwise import cosine_similarity，我会使用MemoryError16 GB 的机器。每个数组都非常适合我的记忆，但我MemoryError在np.dot()内部通话期间得到

这是我的用例以及我目前如何处理它。

这是我的 100 维父向量，我需要将其与其他 500,000 个相同维度（即 100）的不同向量进行比较

parent_vector = [1, 2, 3, 4 ..., 100]

这是我的子向量（这个例子有一些虚构的随机数）

child_vector_1 = [2, 3, 4, ....., 101]
child_vector_2 = [3, 4, 5, ....., 102]
child_vector_3 = [4, 5, 6, ....., 103]
.......
.......
child_vector_500000 = [3, 4, 5, ....., 103]

我的最终目标是获得与父向量具有非常高余弦相似度的前 N 个子向量（以及它们的名称child_vector_1和相应的余弦分数）。

我目前的方法（我知道这是低效且消耗内存的）：

第 1 步：创建以下形状的超级数据框

parent_vector         1,    2,    3, .....,    100   
child_vector_1        2,    3,    4, .....,    101   
child_vector_2        3,    4,    5, .....,    102   
child_vector_3        4,    5,    6, .....,    103   
......................................   
child_vector_500000   3,    4,    5, .....,    103

第 2 步：使用

from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(df)

获得所有向量之间的成对余弦相似度（如上图所示）

第 3 步：制作一个元组列表以存储所有此类组合的key诸如和余弦相似度等值。child_vector_1

第 4 步：使用 list 获取前 Nsort()个 - 这样我就可以得到子向量名称以及它与父向量的余弦相似度分数。

PS：我知道这是非常低效的，但我想不出更好的方法来更快地计算每个子向量和父向量之间的余弦相似度并获得前 N 个值。

任何帮助将不胜感激。

score 7 · Accepted Answer

即使您的 (500000, 100) 数组（父级及其子级）适合内存，但它的任何成对度量都不会。其原因是，顾名思义，成对度量计算任何两个孩子的距离。为了存储这些距离，您需要一个 (500000,500000) 大小的浮点数组，如果我的计算正确，则需要大约 100 GB 的内存。

值得庆幸的是，有一个简单的解决方案可以解决您的问题。如果我理解正确，您只想知道孩子和父母之间的距离，这将导致长度为 500000 的向量很容易存储在内存中。

为此，您只需向 cosine_similarity 提供仅包含 parent_vector 的第二个参数

import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

df = pd.DataFrame(np.random.rand(500000,100)) 
df['distances'] = cosine_similarity(df, df.iloc[0:1]) # Here I assume that the parent vector is stored as the first row in the dataframe, but you could also store it separately

n = 10 # or however many you want
n_largest = df['distances'].nlargest(n + 1) # this contains the parent itself as the most similar entry, hence n+1 to get n children

希望能解决你的问题。

score 0 · Accepted Answer

我什至无法将整个语料库放入内存中，因此我的解决方案是逐渐加载它并在较小的批次上计算余弦相似度，始终保留最少/最多n（取决于您的用例）相似的项目：

data = []
iterations = 0
with open('/media/corpus.txt', 'r') as f:
    for line in f:
        data.append(line)
        if len(data) <= 1000:
            pass
        else:
            print('Getting bottom k, iteration {x}'.format(x=iterations))
            data = get_bottom_k(data, 500)
            iterations += 1
filtered = get_bottom_k(data, 500) # final most different 500 texts in corpus


def get_bottom_k(corpus:list, k:int):
    pairwise_similarity = make_similarity_matrix(corpus) # returns pairwise similarity matrix
    sums = csr_matrix.sum(pairwise_similarity, axis=1)  # Similarity index for each item in corpus. Bigger > more
    sums = np.squeeze(np.asarray(sums))
    # similar to other txt.
    indexes = np.argpartition(sums, k, axis=0)[:k] # Bottom k in terms of similarity (-k for top and [-k:])
    return [corpus[i] for i in indexes]

到目前为止，这是一个最佳解决方案，但它是迄今为止我发现的最简单的解决方案，也许它会对某人有所帮助。

score -1 · Accepted Answer

这个解决方案非常快

child_vectors = np.array(child_vector_1, child_vector_2, ....., child_vector_500000)
input_norm = parent_vector / np.linalg.norm(parent_vector, axis=-1)[:, np.newaxis]
embed_norm =  child_vectors/ np.linalg.norm(child_vectors, axis=-1)[:, np.newaxis]
cosine_similarities = np.sort(np.round(np.dot(input_norm, embed_norm.T), 3)[0])[::-1]
paiswise_distances = 1 - cosine_similarities

python - 非常大数据集的余弦相似度

3 回答 3

Related

Reference