0

使用 Julia 1.0 我有大量数据帧,我使用 pandas (read_csv) 将它们读入 Julia,我正在寻找一种方法将它们全部附加到一个大数据帧中。出于某种原因,“追加”功能无法解决问题。下面是一个简化的例子:

using Pandas 

df = Pandas.DataFrame([[1, 2], [3, 4]], columns=['A', 'B'])

df2 = Pandas.DataFrame([[5, 6], [7, 8]], columns=['A', 'B'])

df[:append](df2)  #fails

df.append(df2)    #fails

df[:concat](df2)  #fails

vcat(df,df2)       

最后一步有效,但会产生一个 2 元素数组,每个元素都是一个 DataFrame

关于如何将两个数据帧堆叠在一起的任何想法?

4

2 回答 2

3

这似乎有效

julia> df = Pandas.DataFrame([[1, 2], [3, 4]], columns=[:A, :B])
   A  B
0  1  2
1  3  4


julia> df2 = Pandas.DataFrame([[5, 6], [7, 8]], columns=[:A, :B])
   A  B
0  5  6
1  7  8


julia> df.pyo[:append](df2, ignore_index = true )
PyObject    A  B
0  1  2
1  3  4
2  5  6
3  7  8

笔记:

  • 我不知道这是 Pandas 的事情还是 julia 1.0 PyCall 的事情,但该对象在调用方法之前似乎需要明确的 .pyo 字段。如果您尝试df[:append],它将尝试将其解释为好像您正在尝试索引:append: 列。试试看df[:col3] = 3我的意思
  • 有一个 julia native DataFrames 包。除非您有一些奇怪的“我已经准备好代码”问题,否则无需使用 Pandas。即使这样,您也可能只是通过 Julia 中的 Python 层使用 Pandas 使事情复杂化。

作为参考,这里是 julia DataFrames 中的等价物:

julia> df  = DataFrames.DataFrame( [1:2, 3:4], [:A, :B]);
julia> df2 = DataFrames.DataFrame( [5:6, 7:8], [:A, :B]);
julia> append!(df, df2)
4×2 DataFrames.DataFrame
│ Row │ A │ B │
├─────┼───┼───┤
│ 1   │ 1 │ 3 │
│ 2   │ 2 │ 4 │
│ 3   │ 5 │ 7 │
│ 4   │ 6 │ 8 │
于 2018-09-20T18:58:19.890 回答
0

既然您说您有很多数据框,您可以将它们添加到列表中。然后 pd.concat 列表,并将第一个文件的标题(假设它们都具有相同的标题)作为新数据帧的标题。这将跳过所有数据框中的第一行,因此您没有一堆标题行。

dfs = [df, df2]

df3 = pd.DataFrame(pd.concat(dfs), columns=df.columns)
于 2018-09-20T18:57:10.493 回答