python - 如何构建使用多个属性的基于内容的推荐系统？

Question

我想在 Python 中构建一个基于内容的推荐系统，它使用多个属性来确定两个项目是否相似。在我的例子中，“项目”是由 C# 包管理器（示例）托管的包，它们具有各种属性，例如名称、描述、标签，可以帮助识别类似的包。

我这里有一个原型推荐系统，目前只使用一个属性，描述，来决定包是否相似。它计算描述的 TF-IDF 排名，并基于此打印出前 10 条推荐：

# Code mostly stolen from http://blog.untrod.com/2016/06/simple-similar-products-recommendation-engine-in-python.html

def train(dataframe):
    tfidf = TfidfVectorizer(analyzer='word',
                            ngram_range=(1, 3),
                            min_df=0,
                            stop_words='english')
    tfidf_matrix = tfidf.fit_transform(dataframe['description'])
    cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix)
    for idx, row in dataframe.iterrows():
        similar_indices = cosine_similarities[idx].argsort()[:-10:-1]
        similar_items = [(dataframe['id'][i], cosine_similarities[idx][i])
                        for i in similar_indices]

        id = row['id']
        similar_items = [it for it in similar_items if it[0] != id]
        # This 'sum' is turns a list of tuples into a single tuple:
        # [(1,2), (3,4)] -> (1,2,3,4)
        flattened = sum(similar_items, ())
        try_print("Top 10 recommendations for %s: %s" % (id, flattened))

如何cosine_similarities与其他相似性度量（基于同一作者、相似姓名、共享标签等）相结合，为我的推荐提供更多背景信息？

score 5 · Accepted Answer

在某些情况下，我与基于内容的推荐器的工作主要围绕原始文本和分类数据/特征展开。这是我采用的一种高级方法，效果很好，实现起来也很简单。

假设我有三个特征列可以潜在地用于提出建议：description、name和tags。对我来说，阻力最小的路径需要以有用的方式组合这三个功能集。

使用 TF-IDF 对description. 那么为什么不通过创建一个由、和组成的特征“语料库”来以类似的方式处理name和呢？从字面上看，这意味着将三列中每一列的内容连接到一个长文本列中。tagsdescriptionnametags

但是，请注意串联，因为保留给定单词来自哪一列可能对您有利，例如name和tag，假设其基数远低于description. 更明确地说：而不是像这样创建您的语料库列：

df['corpus'] = (pd.Series(df[['description', 'name', 'tags']]
                .fillna('')
                .values.tolist()
                ).str.join(' ')

您可以尝试保留有关特定数据点的来源name和tags来源的信息。像这样的东西：

df['name_feature'] = ['name_{}'.format(x) for x in df['name']]
df['tags_feature'] = ['tags_{}'.format(x) for x in df['tags']]

在你这样做之后，我会通过考虑默认标记器（你在上面使用的）如何在TfidfVectorizer. 假设你有一个给定包的作者的名字：“Johnny 'Lightning' Thundersmith”。如果您只是连接该文字字符串，则标记器会将其拆分并将“Johnny”、“Lightning”和“Thundersmith”中的每一个滚动到单独的 features中，这可能会减少该行的 value 添加的信息name。我认为最好尽量保留这些信息。所以我会对你的每个低基数文本列（例如name或tags）做这样的事情：

def raw_text_to_feature(s, sep=' ', join_sep='x', to_include=string.ascii_lowercase):
    def filter_word(word):
        return ''.join([c for c in word if c in to_include])
    return join_sep.join([filter_word(word) for word in text.split(sep)])

def['name_feature'] = df['name'].apply(raw_text_to_feature)

同样的批判性思维也应该适用于tags。如果您有一个以逗号分隔的标签“列表”，您可能必须单独解析这些标签并找出使用它们的正确方法。

最终，一旦您<x>_feature创建了所有列，您就可以创建最终的“语料库”并将其作为输入插入到您的推荐系统中。

当然，整个系统需要一些工程设计，但我发现这是从具有不同基数的其他列引入新信息的最简单方法。

score 3 · Accepted Answer

据我了解您的问题，有两种方法可以做到：

结合其他特征，tfidf_matrix然后计算余弦相似度
使用其他方法计算其他特征的相似度，然后以某种方式将它们与余弦相似度相结合tfidf_matrix以获得有意义的度量。

我说的是第一个。

例如，对于您的数据，tfidf_matrix（仅用于'description'列）的形状是(3000, 4000) 其中 3000 是数据中的行，4000 是 TfidfVectorizer 找到的唯一单词（词汇）。

现在假设您对其他列（“作者”、“id”等）进行了一些特征处理，这会产生 5 列。所以那个数据的形状是(3000, 5)。

我是说结合两个矩阵（结合列），以便数据的新形状是(3000, 4005)然后计算 cosine_similarity。

请参见下面的示例：

from scipy import sparse

# This is your original matrix
tfidf_matrix = tfidf.fit_transform(dataframe['description'])

# This is the other features
other_matrix = some_processing_on_other_columns()
combined_matrix = sparse.hstack((tfidf_matrix, other_matrix))

cosine_similarities = linear_kernel(combined_matrix, combined_matrix)

score 2 · Accepted Answer

你有一个用户 $\gamma_u$ 的向量和一个项目 $\gamma_i$。您推荐的评分函数是：

$f = \alpha + \beta_u +\beta_i + \gamma_u^T \gamma_i$

现在你说你的特征向量只有一项，但是一旦你得到更多，这个模型就会扩展。

在这种情况下，您已经设计了向量，但通常在推荐器中，该特征是通过矩阵分解来学习的。这称为潜在因子模型，而您有一个手工制作的模型。

python - 如何构建使用多个属性的基于内容的推荐系统？

3 回答 3

Related

Reference