-1

我想做 ak 意味着用具有“title”、“genre”、“review”和“synopsis”列的书籍文本数据进行聚类。

我想将“标题”用作集群的指标或主键,但我不确定如何为此使用多个列。

我知道我首先必须对数据进行矢量化,但矢量化接收的是序列数据而不是数据帧值;所以在这里,我不知道如何使用我想要的所有列。

4

1 回答 1

0

您可以分别对每一列进行矢量化并连接结果。

只要确保你做一个稀疏的连接。

但是,使用 k-means 对文本进行聚类并不能很好地工作。K-means 对异常值和噪声非常敏感,测试充满了噪声。k-means(k 信号和 iid 高斯误差)的基本假设不适用于文本。祝你好运...

于 2018-06-26T00:35:37.620 回答