3

我想从多个文件中提取数据,所以我使用需要一个虚拟列的文件集模式。由于我的数据存在一些问题,我还需要静默切换,否则我无法处理我的数据。看起来,当我使用带静默开关的虚拟列时,它不会提取任何行。

@drivers =
EXTRACT name string,
        age string,
        origin string
FROM "/input/{origin:*}file.csv"
USING Extractors.Csv(silent:true);

请注意,我可以通过删除虚拟列从单个文件中提取数据。这个问题有什么解决办法吗?

4

1 回答 1

2

首先,如果您不打算引用该值,则不需要命名通配符(并公开一个虚拟列)。尽管我们建议您确保不要使用此模式处理太多文件,但最好现在使用虚拟列作为过滤器将文件数限制为几千个,直到我们改进实现以使其正常工作在更多文件上。

我假设至少一个文件包含一些包含两列的行?如果是这种情况,我认为您发现了一个错误。您能否向我的电子邮件地址发送一个简单的复制文件(一个有效的文件,以及一个停止工作的附加文件和脚本),以便我可以归档并进行调查?

谢谢!

于 2016-01-15T08:59:42.780 回答