1

我有一个表格,其中包含多个部门的小部件订单,每个部门都由其买家代表。表结构如下所示:

+--------------------------+------------+------------+------------+
|         order_id         | order_date | dept_buyer | widget_mfg |
+--------------------------+------------+------------+------------+
| 56991ba89468d0fc1d53781d | 2/16/2015  | Gutierrez  | OTHERSIDE  |
| 56991ba8f020fc065e5b7219 | 11/14/2014 | Moreno     | QUALITEX   |
| 56991ba82340ecb7b2e9dda8 | 1/15/2015  | Gutierrez  | PROGENEX   |
| 56991ba87bacb0ee3161fd61 | 2/4/2015   | Glover     | ULTRASURE  |
| 56991ba8ade6acae3307a3e9 | 4/20/2015  | Hancock    | WEBIOTIC   |
| 56991ba80b404bcc73094e66 | 4/3/2014   | Castro     | PROGENEX   |
| 56991ba8cb37eda5e5557a74 | 7/21/2014  | Moreno     | OTHERSIDE  |
+--------------------------+------------+------------+------------+

每行代表一个小部件顺序,因为小部件通常是单独排序的。实际表有数万行代表约 3 年的订单。大约有 100 个部门采购员,大约 1000 个小部件制造商。

我想为部门采购员提供一个订单表格,其中包含他们最常订购的小部件,以便于购买。根据以往的经验,我知道许多部门采购员都订购了类似的小部件。也就是说,部门购买者可以通过他们的小部件购买行为聚集在一起。出于这个原因,以及出于维护目的,我想创建尽可能少的表单,同时仍然为将使用该表单的部门采购员捕获最常订购的小部件。

对我来说,这似乎是一个机器学习聚类问题,但我对主题领域不够熟悉,无法在这个问题上立足。是否有解决此类问题的既定算法或库?

4

0 回答 0