google-cloud-dataprep - 为什么 Google Dataprep 无法处理我的日志文件中的编码？

Question

我们每个月都会收到大量的日志文件。在将它们加载到 Google BigQuery 之前，需要将它们从固定转换为分隔。我在 Google Dataprep 中找到了一篇关于如何做到这一点的好文章。但是，编码似乎有问题。

每次日志文件中出现瑞典字符时，Split 功能似乎又增加了一个空格。这会弄乱其余的列，如随附的屏幕截图所示。

我无法确定日志文件的正确编码，但我知道它们是由波兰相当古老的 Windows 服务器创建的。

任何人都可以就如何解决这一挑战提出建议吗？

score 0 · Accepted Answer

作为一种解决方法，您可以使用 RegEx，它应该可以工作。不幸的是，它有点复杂，因为您必须使用多个正则表达式拆分。这是前两个拆分的示例，每个拆分在 10 个字符后 /.{10}/ 并在 //

score 0 · Accepted Answer

您使用的确切配方是什么？你使用 (split every x ) 吗？当我在测试用例中使用 ISO Latin1 文本并将其作为 ISO 8859-1 摄取时，输出与预期一致，只有显示关闭你可以试试吗？是否可以共享一两行的示例输入文件？

2 回答 2