我是数据挖掘的新手,对统计数据和 python 不熟悉。
我们有一个问题,我们case_reports
在 mysql 数据库中有来自某个政府机构的表,其中我们有 1 个或多个字段id
:case
,理论上他们说这case
是唯一的,但可以有多个字段case
:id
非常相似但不完全不同其他行字段中的数据,例如date_rcvd,age,dosage,wt,age,route of administration,submission_type etc
BUT FOR THE SAME PATIENT。
THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT
| id = 55 | case = 1 | age = 20 | source = x | drug = az | date = p
| id = 12 | case = 1 | age = null | source = y | drug = az | date = q
| id = 11 | case = 1 | age = 20 | source = null | null | date = g
| id = 15 | case = 1 | age = 20 | source = z | drug = z | date = m
THE PROBLEM SET EXAMPLE FOR ONE PATIENT
| id = 55 | case = 1 | age = 20 | source = x | drug = az | date = p
| id = 12 | case = 2 | age = 20 | source = y | drug = az | date = q
| id = 55 | case = 1 | age = 20 | source = null | null | date = g
| id = 55 | case = 1 | age = null | source = x | drug = az | date = null
我们只是希望能够通过某种聚类方法对 unique_id 进行 GROUP BY,因此我们最终在查询案例 id 时得到单个结果而不是 4 个结果,我可以使用大约 12 个其他字段进行匹配。
case
= 据称是唯一的患者病例 rpt,随着病例的发展和记录,它们可以持续进行。
id
= parameter_id 链接到与之相关的其他表case
再次在理论中“他们”说这些多case
条记录应该至少有一个不同的id
数字,但如果它们没有:“”只需使用id
最新的process_date
并使用它和DELETE id,case < recent and that 'will probably be the correct one leaving the proper
案例`“” - 不放心:那个案例可以来自不同的报告来源,来自电子提交的重复提交以及备份邮寄报告,或反映来自该 id:case 的不同报告来源的后续病例报告。
我在考虑某种 k 均值聚类方法?
任何资源、代码示例链接、启动策略都会受到赞赏,通常不能期望整个答案神奇地只是寻找一种方法来开始。
我已经形成了CASE
几个人独有的零假设,ids
并定义了问题并收集了数据来证明我的零假设,即许多独特的id
链接与许多独特的联系ids
——这是他们过时的、资金不足的处理/报告系统的公认缺陷。数据是专有的,否则我会分享更多。
**UPDATED EXAMPLE DATA @idris IGNORE ABOVE EXAMPLE**
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| id | case | date | rept_dt | mfr_dt | foll_seq | wt | age | gndr_cod |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| 4610164 | 3118662 | 20050314 | 20050311 | 20050301 | 2 | 0 | 51 | M |
| 4622120 | 3118662 | 20050322 | 20050321 | 20050314 | 3 | 0 | 0 | M |
| 4622120 | 3118662 | 20050329 | 20050325 | 20050314 | | 0 | 51 | M |
| 4802410 | 3118662 | 20051013 | 20051012 | 20051004 | 5 | 0 | 51 | M |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
最好的,
科林