0

我有一些数据,数据集包括设备 ID(int)、电话(int)、名称(字符串)、设备 ID等特征。但所有数据都没有标签。我的任务是获取一个人使用多个 ID 或多个设备的概率。我不知道该怎么做,有人有想法吗?

为了清楚起见,这里是一个例子。数据集就像

  name   id    phone  device_id  
 Jason   123    12345   12341231     ......  
 James   1345   312312  312312312    ......  
 Jason   123    53523   23115124    ......

所以我们可以发现 Jason 有 2 个电话号码,
我如何使用机器学习方法或深度学习方法获得概率?

4

1 回答 1

0

一种可能的方法是计算用户的相似度。

据我所知,用户的设备相似性是您的最终目标。

对于初学者来说,结合唯一标识用户的名称和 ID 字段。生成,所有剩余的特征向量作为一个数组。

之后,您可以在所有用户之上运行嵌套 for 循环。这会给你最接近的匹配,你可以设置一个阈值,或者你可以选择 kNN 来做到这一点。

看看这个: 将嵌套字典转换为 Pyspark 数据框

于 2020-11-02T22:43:59.540 回答