0

我们每个月都会收到大量的日志文件。在将它们加载到 Google BigQuery 之前,需要将它们从固定转换为分隔。我在 Google Dataprep 中找到了一篇关于如何做到这一点的好文章。但是,编码似乎有问题。

每次日志文件中出现瑞典字符时,Split 功能似乎又增加了一个空格。这会弄乱其余的列,如随附的屏幕截图所示。

我无法确定日志文件的正确编码,但我知道它们是由波兰相当古老的 Windows 服务器创建的。

任何人都可以就如何解决这一挑战提出建议吗?

Google Dataprep 中问题的屏幕截图。

4

2 回答 2

0

作为一种解决方法,您可以使用 RegEx,它应该可以工作。不幸的是,它有点复杂,因为您必须使用多个正则表达式拆分。这是前两个拆分的示例,每个拆分在 10 个字符后 /.{10}/ 并在 //

在此处输入图像描述

于 2017-12-18T18:14:07.947 回答
0

您使用的确切配方是什么?你使用 (split every x ) 吗?当我在测试用例中使用 ISO Latin1 文本并将其作为 ISO 8859-1 摄取时,输出与预期一致,只有显示关闭 你可以试试吗?是否可以共享一两行的示例输入文件?

在此处输入图像描述

于 2017-12-11T16:46:35.223 回答