1

tldr; 我有一个index_dateindtype: datetime64[ns] <class 'pandas.core.series.Series'>和 a list_of_datesof 类型,其中包含格式<class 'list'>中的单个元素。str将这些转换为相同数据类型的最佳方法是什么,以便我可以将日期排序为最接近之前和最接近之后index_date

我有一个带有列的熊猫数据框(df):

ID_string                   object
indexdate           datetime64[ns]
XR_count                     int64
CT_count                     int64
studyid_concat              object
studydate_concat            object
modality_concat             object

它看起来像:

    ID_string   indexdate   XR_count    CT_count    studyid_concat      studydate_concat
0   55555555    2020-09-07  10          1           ['St1', 'St5'...]       ['06/22/2019', '09/20/2020'...]
1   66666666    2020-06-07  5           0           ['St11', 'St17'...]     ['05/22/2020', '06/24/2020'...]

studyid_concat ("St1") 中的 0 元素对应于 studydate_concat 和 modality_concat 等中的 0 元素。由于空间原因,我没有显示 modality_concat,但它类似于['XR', 'CT', ...]

我目前的目标是找到在我的索引日期之前和之后进行的最接近的 X 射线研究,并且能够将研究从最接近到最远进行排名。我对熊猫有点陌生,但这是我目前的尝试:

df = pd.read_excel(path_to_excel, sheet_name='Sheet1')

# Convert comma separated string from Excel to lists of strings
df.studyid_concat = df.studyid_concat.str.split(',')
df.studydate_concat = df.studydate_concat.str.split(',')
df.modality_concat = df.modality_concat.str.split(',')

for x in in df['ID_string'].values:
    index_date = df.loc[df['ID_string'] == x, 'indexdate']

    # Had to use subscript [0] below because result of above was a list in an array
    studyid_list = df.loc[df['ID_string'] == x, 'studyid_concat'].values[0]
    date_list = df.loc[df['ID_string'] == x, 'studydate_concat'].values[0]
    modality_list = df.loc[df['ID_string'] == x, 'modality_concat'].values[0]

    xr_date_list = [date_list[x] for x in range(len(date_list)) if modality_list[x]=="XR"]
    xr_studyid_list = [studyid_list[x] for x in range(len(studyid_list)) if modality_list[x]=="XR"]

这就是我所得到的,因为我对这里的数据类型有些困惑。我的 indexdate 目前正在dtype: datetime64[ns] <class 'pandas.core.series.Series'>考虑使用该datetime模块进行转换,但很难弄清楚如何进行转换。我也不确定是否需要。Myxr_study_list是包含格式为“mm/dd/yyyy”的日期的字符串列表。我想如果我能以正确的格式获得数据类型,我是否能弄清楚其余的。我只是比较日期是否 >= 或 <indexdate排序为之前/之后,然后减去每个日期indexdate并排序。我认为无论我用 my 做什么xr_date_list,我都必须确保做同样的事情xr_studyid_list来跟踪唯一的 study id

编辑:所需的输出数据框看起来像

    ID_string   indexdate   StudyIDBefore           StudyDateBefore     
0   55555555    2020-09-07  ['St33', 'St1', ...]    [2020-09-06, 2019-06-22, ...]
1   66666666    2020-06-07  ['St11', 'St2', ...]    [2020-05-22, 2020-05-01, ...]

其中“之前”变量将从最近到最远进行排序,并且存在类似的“之后”列。我目前的目标只是检查在此索引日期之前和之后的 3 天内是否存在研究,但是拥有上述数据框会给我如果我需要开始寻找最近的研究之外的灵活性。

4

1 回答 1

0

想我在花了一些时间思考它并参考更多 pandas to_datetime 文档后找到了自己的答案。基本上意识到我可以使用 pd.to_datetime 转换我的字符串日期列表

date_list = pd.to_datetime(df.loc[df['ID_string'] == x, 'studydate_concat'].values[0]).values

然后可以从这个列表中减去我的索引日期。选择在临时数据框中执行此操作,以便我可以跟踪其他列值(如研究 ID、模态等)。

完整代码如下:

for x in df['ID_string'].values:
    index_date = df.loc[df['ID_string'] == x, 'indexdate'].values[0]
    date_list = pd.to_datetime(df.loc[df['ID_string'] == x, 'studydate_concat'].values[0]).values
    modality_list = df.loc[df['ID_string'] == x, 'modality_concat'].values[0]
    studyid_list = df.loc[df['ID_string'] == x, '_concat'].values[0]

    tempdata = list(zip(studyid_list, date_list, modality_list))
    tempdf = pd.DataFrame(tempdata, columns=['studyid', 'studydate', 'modality'])

    tempdf['indexdate'] = index_date
    tempdf['timedelta'] = tempdf['studydate']-tempdf['index_date']

    tempdf['study_done_wi_3daysbefore'] = np.where((tempdf['timedelta']>=np.timedelta64(-3,'D')) & (tempdf['timedelta']<np.timedelta64(0,'D')), True, False)
    tempdf['study_done_wi_3daysafter'] = np.where((tempdf['timedelta']<=np.timedelta64(3,'D')) & (tempdf['timedelta']>=np.timedelta64(0,'D')), True, False)
    tempdf['study_done_onindex'] = np.where(tempdf['timedelta']==np.timedelta64(0,'D'), True, False)

    XRonindex[x] = True if len(tempdf.loc[(tempdf['study_done_onindex']==True) & (tempdf['modality']=='XR'), 'studyid'])>0 else False
    XRwi3days[x] = True if len(tempdf.loc[(tempdf['study_done_wi_3daysbefore']==True) & (tempdf['modality']=='XR'), 'studyid'])>0 else False
    # can later map these values back to my original dataframe as a new column
于 2020-10-24T23:54:28.833 回答