0

为了让我的 pandas 代码更快,我安装了 modin 并尝试使用它。以前工作的两个数据框的合并给了我以下错误:

ValueError: can not merge DataFrame with instance of type <class 'pandas.core.frame.DataFrame'>

这是两个数据框的信息:

printing event_df.info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1980101 entries, 0 to 1980100
Data columns (total 5 columns):
other_id     object
id             object
category       object
description    object
date           datetime64[ns]
dtypes: datetime64[ns](1), object(4)
memory usage: 75.5+ MB
printing other_df info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 752438 entries, 0 to 752437
Data columns (total 4 columns):
id            752438 non-null object
other_id    752438 non-null object
Value     752438 non-null object
Unit      752438 non-null object
dtypes: object(4)
memory usage: 23.0+ MB

以下是 event_df 中的一些行:

other_id            id     category      description        date
08E5A97350FC8B00092F 1  some_string      some_string     2019-04-09 
17B71019E148415D     4  some_string      some_string      2019-11-08 
17B71019E148415D360  7  some_string      some_string      2019-11-08 

这里是 other_df 的 3 行:

id                             other_id           Value      Unit
a01  BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283         3  some_string
a02  BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283         3  some_string
a03  BE4F15A3AE8A508ACB45F0FC8CDC173D1628D283         3  some_string

我尝试安装此问题中引用的版本Join two modin.pandas.DataFrame(s),但没有帮助。

这是引发错误的代码行:

joint_dataframe2 = pd.merge(event_df,other_df, on = ["id","other_id"])

modin 的合并功能似乎存在一些问题。是否有任何解决方法,例如使用 pandas 进行合并和使用 modin 进行 groupby.transform()?在与 import modin.pandas 合并后,我尝试覆盖 pandas 导入,但出现错误,提示在分配之前引用了 pandas。有没有人遇到过这个问题,如果有,有解决方案吗?

4

1 回答 1

1

您的错误看起来像是将 的实例modin.pandas.dataframe.DataFrame与 的实例合并pandas.core.frame.DataFrame,这是不允许的。

如果确实如此,您可以先将 pandas Dataframe 转换为 modin Dataframe,然后您应该能够合并它们,我相信。

于 2019-12-16T03:34:02.450 回答