在我有 5000000 行的数据集中,我想在我的数据集中添加一个名为“嵌入”的列。
dataset = dataset.add_column('embeddings', embeddings)
变量embeddings是一个大小为 (5000000, 512) 的 numpy memmap 数组。
但我得到这个错误:
----> 1 个数据集 = dataset.add_column('embeddings', embeddings) 中的 ArrowInvalidTraceback(最近一次调用最后一次)
/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py in wrapper(*args, **kwargs) 486 } 487 # 应用实际函数 --> 488 out: Union["Dataset", " DatasetDict"] = func(self, *args, **kwargs) 489 个数据集:List["Dataset"] = list(out.values()) if isinstance(out, dict) else [out] 490 # 重新应用格式到输出
/opt/conda/lib/python3.8/site-packages/datasets/fingerprint.py in wrapper(*args, **kwargs) 404 # 调用实际函数 405 --> 406 out = func(self, *args, * *kwargs) 407 408 # 更新原地变换的指纹 + 更新原地变换的历史
/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py in add_column(self, name, column, new_fingerprint) 3346 :class:
Dataset
3347 """ -> 3348 column_table = InMemoryTable.from_pydict({name : column}) 3349 # 水平连接表 3350 table = ConcatenationTable.from_tables([self._data, column_table], axis=1)/opt/conda/lib/python3.8/site-packages/datasets/table.py in from_pydict(cls, *args, **kwargs) 367 @classmethod 368 def from_pydict(cls, *args, **kwargs): - -> 369 返回 cls(pa.Table.from_pydict(*args, **kwargs)) 370 371 @inject_arrow_table_documentation(pa.Table.from_batches)
/opt/conda/lib/python3.8/site-packages/pyarrow/table.pxi 在 pyarrow.lib.Table.from_pydict()
/opt/conda/lib/python3.8/site-packages/pyarrow/table.pxi 在 pyarrow.lib._from_pydict()
/opt/conda/lib/python3.8/site-packages/pyarrow/array.pxi 在 pyarrow.lib.asarray()
/opt/conda/lib/python3.8/site-packages/pyarrow/array.pxi 在 pyarrow.lib.array()
/opt/conda/lib/python3.8/site-packages/pyarrow/array.pxi 在 pyarrow.lib._ndarray_to_array()
/opt/conda/lib/python3.8/site-packages/pyarrow/error.pxi 在 pyarrow.lib.check_status()
ArrowInvalid:只处理一维数组
由于嵌入数组不适合 RAM,我该如何以有效的方式解决?