为了让我的 pandas 代码更快,我安装了 modin 并尝试使用它。以前工作的两个数据框的合并给了我以下错误:
ValueError: can not merge DataFrame with instance of type <class 'pandas.core.frame.DataFrame'>
这是两个数据框的信息:
printing event_df.info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1980101 entries, 0 to 1980100
Data columns (total 5 columns):
other_id object
id object
category object
description object
date datetime64[ns]
dtypes: datetime64[ns](1), object(4)
memory usage: 75.5+ MB
printing other_df info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 752438 entries, 0 to 752437
Data columns (total 4 columns):
id 752438 non-null object
other_id 752438 non-null object
Value 752438 non-null object
Unit 752438 non-null object
dtypes: object(4)
memory usage: 23.0+ MB
以下是 event_df 中的一些行:
other_id id category description date
08E5A97350FC8B00092F 1 some_string some_string 2019-04-09
17B71019E148415D 4 some_string some_string 2019-11-08
17B71019E148415D360 7 some_string some_string 2019-11-08
这里是 other_df 的 3 行:
id other_id Value Unit
a01 BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283 3 some_string
a02 BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283 3 some_string
a03 BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283 3 some_string
我尝试安装此问题中引用的版本Join two modin.pandas.DataFrame(s),但没有帮助。
这是引发错误的代码行:
joint_dataframe2 = pd.merge(event_df,other_df, on = ["id","other_id"])
modin 的合并功能似乎存在一些问题。是否有任何解决方法,例如使用 pandas 进行合并和使用 modin 进行 groupby.transform()?在与 import modin.pandas 合并后,我尝试覆盖 pandas 导入,但出现错误,提示在分配之前引用了 pandas。有没有人遇到过这个问题,如果有,有解决方案吗?