我有一个名为 .colum 的数据框label
。该列中的值为:
label
[1,2]
[0,2,1]
我想创建一个维度向量,该向量在标签灯中存在的位置处240
具有值。1
label_output
[0,1,1,0.......0]
[1,1,1,0,0,0....0]
我正在尝试使用pandarallel
,因为我有60 million data points
代码
%load_ext autoreload
%autoreload 2
import pandas as pd
import time
from pandarallel import pandarallel
import math
import numpy as np
pandarallel.initialize(use_memory_fs=False,nb_workers=10,progress_bar=True)
%%time
import ast
def cluster_vec(lists):
b=[0]*240
lists=ast.literal_eval(lists)
for num in lists:
b[int(num)]=1
return b
data['clus_vec']=data.label.parallel_apply(lambda lists: cluster_vec(lists))
它在某个时候卡住了。这是处理的屏幕截图。
它不从这里处理。