我们每个月都会收到大量的日志文件。在将它们加载到 Google BigQuery 之前,需要将它们从固定转换为分隔。我在 Google Dataprep 中找到了一篇关于如何做到这一点的好文章。但是,编码似乎有问题。
每次日志文件中出现瑞典字符时,Split 功能似乎又增加了一个空格。这会弄乱其余的列,如随附的屏幕截图所示。
我无法确定日志文件的正确编码,但我知道它们是由波兰相当古老的 Windows 服务器创建的。
任何人都可以就如何解决这一挑战提出建议吗?
我们每个月都会收到大量的日志文件。在将它们加载到 Google BigQuery 之前,需要将它们从固定转换为分隔。我在 Google Dataprep 中找到了一篇关于如何做到这一点的好文章。但是,编码似乎有问题。
每次日志文件中出现瑞典字符时,Split 功能似乎又增加了一个空格。这会弄乱其余的列,如随附的屏幕截图所示。
我无法确定日志文件的正确编码,但我知道它们是由波兰相当古老的 Windows 服务器创建的。
任何人都可以就如何解决这一挑战提出建议吗?