这是我在 google dataprep 中发现的另一个错误:
当使用稀疏数据集作为输入(每隔一行一个空行)时,google dataprep 无法处理其上的任何配方。
转换器页面显示初始样本中的所有数据,并且所有配方转换都照常显示。但是,在运行作业时,它会返回一个空集。
如果使用新的随机数据集样本而不是初始样本,它也会返回一个空数据集。
如果有人知道有关此问题的详细信息,将不胜感激!
干杯,布拉姆
这是我在 google dataprep 中发现的另一个错误:
当使用稀疏数据集作为输入(每隔一行一个空行)时,google dataprep 无法处理其上的任何配方。
转换器页面显示初始样本中的所有数据,并且所有配方转换都照常显示。但是,在运行作业时,它会返回一个空集。
如果使用新的随机数据集样本而不是初始样本,它也会返回一个空数据集。
如果有人知道有关此问题的详细信息,将不胜感激!
干杯,布拉姆
我试图重现该问题但没有成功。但我仍然想分享我的逐步测试。希望有人会发现它有用。
编写一个脚本来创建一个 csv 文件('sparse_names.csv'),每隔一行有一个空行。
import csv
with open('sparse_names.csv', 'w') as csvfile:
fieldnames = ['id', 'first_name', 'last_name', 'other']
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
writer.writeheader()
for i in range(10000000):
if i%2==0:
writer.writerow({'id': i, 'first_name': 'Baked', 'last_name': 'Beans', 'other': 'lululu'})
else:
writer.writerow({'id': '', 'first_name': '', 'last_name': '', 'other': ''})
将文件上传到 GCS,并将其从 GCS 添加到 Dataprep。
在初始样本中,我可以看到前 658,831 行。
选择新样本。使用快速扫描获取随机样本,这是输出。