0

我是数据挖掘的新手,对统计数据和 python 不熟悉。

我们有一个问题,我们case_reports在 mysql 数据库中有来自某个政府机构的表,其中我们有 1 个或多个字段idcase,理论上他们说这case是唯一的,但可以有多个字段caseid非常相似但不完全不同其他行字段中的数据,例如date_rcvd,age,dosage,wt,age,route of administration,submission_type etcBUT FOR THE SAME PATIENT。

       THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20 | source = x    | drug = az | date = p
  | id = 12 | case = 1 | age = null | source = y    | drug = az | date = q
  | id = 11 | case = 1 | age = 20 | source = null | null      | date = g
  | id = 15 | case = 1 | age = 20 | source = z    | drug = z  | date = m


                        THE PROBLEM SET EXAMPLE FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20   | source = x       | drug = az    | date = p
  | id = 12 | case = 2 | age = 20   | source = y    | drug = az     | date = q
  | id = 55 | case = 1 | age = 20   | source = null   | null         | date = g
  | id = 55 | case = 1 | age = null | source = x    | drug = az   | date = null

我们只是希望能够通过某种聚类方法对 unique_id 进行 GROUP BY,因此我们最终在查询案例 id 时得到单个结果而不是 4 个结果,我可以使用大约 12 个其他字段进行匹配。

case= 据称是唯一的患者病例 rpt,随着病例的发展和记录,它们可以持续进行。 id= parameter_id 链接到与之相关的其他表case

再次在理论中“他们”说这些多case条记录应该至少有一个不同的id数字,但如果它们没有:“”只需使用id最新的process_date并使用它和DELETE id,case < recent and that 'will probably be the correct one leaving the proper案例`“” - 不放心:那个案例可以来自不同的报告来源,来自电子提交的重复提交以及备份邮寄报告,或反映来自该 id:case 的不同报告来源的后续病例报告。

我在考虑某种 k 均值聚类方法?

任何资源、代码示例链接、启动策略都会受到赞赏,通常不能期望整个答案神奇地只是寻找一种方法来开始。

我已经形成了CASE几个人独有的零假设,ids并定义了问题并收集了数据来证明我的零假设,即许多独特的id链接与许多独特的联系ids——这是他们过时的、资金不足的处理/报告系统的公认缺陷。数据是专有的,否则我会分享更多。

**UPDATED EXAMPLE DATA @idris IGNORE ABOVE EXAMPLE**

+---------+---------+----------+----------+----------+----------+----+-----+----------+
| id      | case    | date     | rept_dt  | mfr_dt   | foll_seq | wt | age | gndr_cod |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| 4610164 | 3118662 | 20050314 | 20050311 | 20050301 | 2        |  0 |  51 | M        |
| 4622120 | 3118662 | 20050322 | 20050321 | 20050314 | 3        |  0 |  0  | M        |
| 4622120 | 3118662 | 20050329 | 20050325 | 20050314 |          |  0 |  51 | M        |
| 4802410 | 3118662 | 20051013 | 20051012 | 20051004 | 5        |  0 |  51 | M        |
+---------+---------+----------+----------+----------+----------+----+-----+----------+

最好的,

科林

4

0 回答 0