tldr; 我有一个index_date
indtype: datetime64[ns] <class 'pandas.core.series.Series'>
和 a list_of_dates
of 类型,其中包含格式<class 'list'>
中的单个元素。str
将这些转换为相同数据类型的最佳方法是什么,以便我可以将日期排序为最接近之前和最接近之后index_date
?
我有一个带有列的熊猫数据框(df):
ID_string object
indexdate datetime64[ns]
XR_count int64
CT_count int64
studyid_concat object
studydate_concat object
modality_concat object
它看起来像:
ID_string indexdate XR_count CT_count studyid_concat studydate_concat
0 55555555 2020-09-07 10 1 ['St1', 'St5'...] ['06/22/2019', '09/20/2020'...]
1 66666666 2020-06-07 5 0 ['St11', 'St17'...] ['05/22/2020', '06/24/2020'...]
studyid_concat ("St1") 中的 0 元素对应于 studydate_concat 和 modality_concat 等中的 0 元素。由于空间原因,我没有显示 modality_concat,但它类似于['XR', 'CT', ...]
我目前的目标是找到在我的索引日期之前和之后进行的最接近的 X 射线研究,并且能够将研究从最接近到最远进行排名。我对熊猫有点陌生,但这是我目前的尝试:
df = pd.read_excel(path_to_excel, sheet_name='Sheet1')
# Convert comma separated string from Excel to lists of strings
df.studyid_concat = df.studyid_concat.str.split(',')
df.studydate_concat = df.studydate_concat.str.split(',')
df.modality_concat = df.modality_concat.str.split(',')
for x in in df['ID_string'].values:
index_date = df.loc[df['ID_string'] == x, 'indexdate']
# Had to use subscript [0] below because result of above was a list in an array
studyid_list = df.loc[df['ID_string'] == x, 'studyid_concat'].values[0]
date_list = df.loc[df['ID_string'] == x, 'studydate_concat'].values[0]
modality_list = df.loc[df['ID_string'] == x, 'modality_concat'].values[0]
xr_date_list = [date_list[x] for x in range(len(date_list)) if modality_list[x]=="XR"]
xr_studyid_list = [studyid_list[x] for x in range(len(studyid_list)) if modality_list[x]=="XR"]
这就是我所得到的,因为我对这里的数据类型有些困惑。我的 indexdate 目前正在dtype: datetime64[ns] <class 'pandas.core.series.Series'>
考虑使用该datetime
模块进行转换,但很难弄清楚如何进行转换。我也不确定是否需要。Myxr_study_list
是包含格式为“mm/dd/yyyy”的日期的字符串列表。我想如果我能以正确的格式获得数据类型,我是否能弄清楚其余的。我只是比较日期是否 >= 或 <indexdate
排序为之前/之后,然后减去每个日期indexdate
并排序。我认为无论我用 my 做什么xr_date_list
,我都必须确保做同样的事情xr_studyid_list
来跟踪唯一的 study id
编辑:所需的输出数据框看起来像
ID_string indexdate StudyIDBefore StudyDateBefore
0 55555555 2020-09-07 ['St33', 'St1', ...] [2020-09-06, 2019-06-22, ...]
1 66666666 2020-06-07 ['St11', 'St2', ...] [2020-05-22, 2020-05-01, ...]
其中“之前”变量将从最近到最远进行排序,并且存在类似的“之后”列。我目前的目标只是检查在此索引日期之前和之后的 3 天内是否存在研究,但是拥有上述数据框会给我如果我需要开始寻找最近的研究之外的灵活性。