问题标签 [google-cloud-dataprep]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 在 DataPrep 中,对对象中的一组多列或值求和
我有一个 DataPrep 数据集,其中包含一系列 ~10 列,每列都指示是否选择了特定的小册子:
我想将这些值汇总/计数成一BrochuresSelected
列。
我希望ADD
与列范围(即BRO_AF~BRO_ITA
)一起使用,但ADD
只需要两个数字。
我不能使用COUNT
,因为它计算行而不是列。
我可以NEST
用来创建一个存储小册子map
或array
小册子的列,但似乎没有添加这些的功能。我不能ARRAYLEN
在此列上使用,因为即使是空列也表示在列中(例如["1","","","","",""]
,数组长度为六,而不是一)。
有没有人解决过类似的问题?
google-bigquery - DataPrep 中的数组字段在 BigQuery 中被识别为字符串
我正在尝试使用 dataprep 来整理我的数据以进行报告。
但是,应该是数组的字段在 bigquery 中被识别为字符串。
示例数据:
基本上,我只想将某些字段设为大写。(这只是一个简单的示例,我有非常复杂的转换)这是 wrangle 文件:
最后导致 bigquery(在表中):
我也在谷歌问题中问过这个问题。 https://issuetracker.google.com/issues/69773118
只是想知道,有人有这个问题并有解决方法吗? 我知道我们可以在 biquery 中查询 JSON,如下所述: How to query json stored as string in bigquery table?
但它使查询变得复杂,我想避免它。
google-cloud-platform - Google Cloud Dataprep 可以监控新文件的 GCS 路径吗?
Google Cloud Dataprep 看起来很棒,我们已经使用它手动导入静态数据集,但是我想多次执行它,以便它可以使用上传到 GCS 路径的新文件。我可以看到您可以为 Dataprep 设置计划,但我在导入设置中的任何地方都看不到它将如何处理新文件。
这可能吗?似乎是一个明显的需求 - 希望我错过了一些明显的东西。
google-cloud-platform - 如何授予对 Google Cloud Dataprep 的访问权限?
我在 Cloud Dataprep 中创建了一个流程,作业已执行。一切都好。
但是,在此 GCP 项目中也具有所有者角色的同事无法看到我创建的流程。我无法在任何地方找到共享选项。
应该如何设置以便 Dataprep 流程可以由多个用户处理?
谢谢。
google-cloud-dataprep - 为什么 Google Dataprep 无法处理我的日志文件中的编码?
我们每个月都会收到大量的日志文件。在将它们加载到 Google BigQuery 之前,需要将它们从固定转换为分隔。我在 Google Dataprep 中找到了一篇关于如何做到这一点的好文章。但是,编码似乎有问题。
每次日志文件中出现瑞典字符时,Split 功能似乎又增加了一个空格。这会弄乱其余的列,如随附的屏幕截图所示。
我无法确定日志文件的正确编码,但我知道它们是由波兰相当古老的 Windows 服务器创建的。
任何人都可以就如何解决这一挑战提出建议吗?
google-cloud-platform - Google Cloud Dataprep - 函数
Google Cloud Dataprep 上是否有诸如离散化、规范化和数据转换(分类到数字)之类的功能?
google-bigquery - Google Cloud Dataprep - 扫描多个输入 csv 并创建相应的 bigquery 表
我在 GCS 上有几个 csv 文件,它们共享相同的模式但具有不同的时间戳,例如:
- 数据_20180103.csv
- 数据_20180104.csv
- 数据_20180105.csv
我想通过 dataprep 运行它们并创建具有相应名称的 Bigquery 表。该作业应该每天使用调度程序运行。
现在我认为可行的方法如下:
- csv 文件应该有一个时间戳列,该列对于同一文件中的每一行都是相同的
- 在 GCS 上创建 3 个文件夹:raw、queue 和 wrangled
- 将原始 csv 文件放入 raw 文件夹。然后运行云函数将 1 个文件从原始文件夹移动到队列文件夹中,如果它是空的,否则什么也不做。
- Dataprep 根据调度程序扫描队列文件夹。如果找到 csv 文件(例如 data_20180103.csv),则运行相应的作业,输出文件将放入经过整理的文件夹(例如 data.csv)。
- 每当将新文件添加到经过整理的文件夹时,都会运行另一个 Cloud 函数。这将根据 csv 文件中的时间戳列创建一个新的 BigQuery 表(例如 20180103)。它还会删除队列和争吵文件夹中的所有文件,并继续将 1 个文件从原始文件夹移动到队列文件夹(如果有)。
重复直到创建所有表。这对我来说似乎过于复杂,我不确定如何处理云功能无法完成工作的情况。
对我的用例的任何其他建议表示赞赏。
google-bigquery - Google Dataprep 日期序列号
在 Google Dataprep 中,当我将 min() 应用于某个日期时,它会给出一个长序列号,例如 1304985600000。我正在尝试获取客户的第一个订单日期,但我似乎对此号码无能为力
谢谢
keras - 数据实验室中的大数据
我正在尝试将我的 csv 文件加载到 datalab 中。但是 csv 文件太大而无法加载。即使我设法做到了,进行预处理也需要很长时间。
我正在考虑使用 Keras 对这个数据集进行 ML。问题是:
- 如何使用数据生成器向 Keras 提供我的原始数据?
- 数据预处理怎么样,我应该在 dataprep 或 dataflow 中进行还是在 datalab 中就可以了?
- 有什么方法可以加快训练过程?现在,我必须让数据实验室窗口打开很长时间才能完成训练。让网页长时间打开我感觉不舒服。
谢谢!
google-cloud-platform - Google Dataprep:使用更新的数据源进行调度
有没有办法在 GCS(谷歌云存储)文件上传时触发 dataprep 流?或者,至少,是否可以让 dataprep 每天运行并从 GCS 中的某个目录获取最新文件?
这应该是可能的,否则调度的意义何在?在具有相同输出的相同数据源上运行相同作业?