问题标签 [google-cloud-dataprep]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - Dataprep - 调度作业
对于 Dataprep 测试版的任何人,是否可以安排正在运行的作业?如果是这样,它是通过应用引擎的 cron 服务吗?我不能完全按照 cron 的应用程序引擎说明进行操作,但想在尝试之前确保它不是死胡同
谢谢
json - 在谷歌数据准备中导入 json 文件
这里有人知道如何在谷歌数据准备中导入 json 文件吗?我可以在那里上传一个 json 文件,但它不能创建列。
如您所见,它将所有 json 显示为 1 列。
我做了一些研究,并认为应该通过额外的步骤来支持 JSON
这是文章: https ://cloud.google.com/dataprep/docs/html/Supported-File-Formats_57344528
这是附加步骤文章: https ://cloud.google.com/dataprep/docs/html/Splitrows-Transform_57344654 。
我确实尝试过拆分行,但它仍然无法正常工作。我必须使用任何特定格式的 JSON 吗?
如果您能给我一个按预期工作的简单 json 文件示例,那就太好了。
谢谢。
arrays - 如何在谷歌数据准备中合并行
我真的在为谷歌数据准备而苦苦挣扎,因为没有太多关于这方面的信息。
假设我有数据:
然后我的下一步是将数组展平为行以清理数据。在这种情况下,它将总共创建 4 行。
现在,例如,我不知道如何根据名称合并行。
合并的功能只是合并列。
google-bigquery - BigQuery / DataPrep:提取字数的有效方法;将 HTML 转换为纯文本
我有一个存储在 BigQuery 中的约 4.7M 文档表。有些是纯文本,有些是 HTML。它们大约有 2k 个令牌,变化很大。我主要使用 DataPrep 进行处理。
我想提取这些标记并计算TF-IDF值。
令牌计数
更耗时的步骤之一是采取以下措施:
并将其变成这样:
一种方法是:
- 文件上的提取列表由
{alphanum-underscore}+
id, wordlist 1, ["foo", "bar", "foo", "baz"] 2, ["foo", "bar", "bar", "qux"]
- 展平单词表
id, word 1, foo 1, bar 1, foo 1, baz 2, foo 2, bar 2, bar 2, qux
- 按组聚合:id、word、值:count()
id, word, count 1, foo, 2 1, bar, 1 1, baz, 1 2, foo, 1 2, bar, 2 2, qux, 1
但是,第 2 步和第 3 步非常慢,尤其是对于大型文档。
理想情况下,我将能够拥有一个转换["foo", "bar", "foo", "baz"]
为{"foo":2, "bar":1, "baz":1}
. 这不需要 flatten-then-group 操作来提取计数,并且随后的 flatten 会更小(因为它在唯一的术语而不是每个术语上运行)。
但是,我还没有想出在 DataPrep 中做到这一点的任何方法。:-/
有什么更有效的方法来做到这一点?
HTML 到纯文本
我的源数据是纯文本和 html 的组合。在 370 万份文档中,只有大约 80 万份有明文可用。
我想以某种合理的方式将 html 转换为纯文本(例如,相当于 Nokogiri #content),这样我就可以对结果进行令牌提取。
我可以启动一个集群,提取bq query
html,用 nokogiri 处理它,然后将它输出到一个已处理的表。但这有点复杂,需要大量的 i/o。
有没有更简单/更有效的方法来做到这一点?
google-bigquery - 无法将数据从 Dataprep 传输到 Google BigQuery
我正在尝试将 15GBcsv
文件Dataprep
从Google BigQuery
. 但是我收到以下错误:
我该如何解决这个问题?
google-cloud-dataprep - 对多个数据集重复使用相同的配方
我想对其余数据集使用与一个数据集相同的配方。所有数据集的结构/标题都是相同的。有没有办法在不重复所有步骤的情况下导入或重复使用相同的配方?
google-cloud-dataflow - Google DataPrep 中的动态 BigQuery 数据源 - 可以吗?
我不能使用 Dataprep 定义动态数据源真的是对的吗?据我所知,我只能指向 BigQuery 表。我需要指向表格中的某个部分。分区的命名总是包括日期。喜欢。“ga_20171113”。
我真的不明白为什么我不能定义一个 SQL 虽然 BQ 并将其用作源。
google-cloud-dataflow - 数据流工作人员无法连接到数据流服务
我正在使用 Google Dataprep 启动 Dataflow 作业,但遇到了一些困难。
作为背景,我们使用了 Dataprep 几个星期,在我们开始遇到服务帐户授权问题之前它可以正常工作。当我们最终解决这个问题时,我们重新启动了我们曾经启动的作业,但它们以“数据流似乎被卡住了”而失败。
我们尝试了另一个非常简单的工作,但遇到了同样的错误。以下是完整的错误消息,作业在卡住一小时后失败:
数据流 -
数据准备 -
似乎这种错误有多种来源,我不知道从哪里开始。提前致谢
google-bigquery - 无法访问表 irs_990_reporting Dataprep Google Cloud 的数据库 irs_990
我在尝试创建表格时遇到了 Google DataPrep 问题。有一条消息“无法访问表 irs_990_reporting 的数据库 irs_990”。
你们,伙计们,可以在这里看到所有的步骤。
https://docs.google.com/document/d/1u5rFyg7nMv4YJ_u_ASjpmVdkusJARTN2gCtBj8zr4T0/edit?usp=sharing
感谢您的所有回答,但我仍然有这个问题。我尝试了你所有的建议,但它仍然不起作用。我只有一个项目、一个流程、一个数据集和一份工作。我创建了一个新流程,使其更清晰。
https://docs.google.com/document/d/1CU6CU_-plQ9Id1etj5nLbJ6iKSVPQURZISk6YYohAM0/edit?usp=sharing
它还活着!它还活着!它还活着!
威尔的回答解决了这个问题,我不明白为什么会这样,所以如果你们有一些答案要指定,那就完美了。
谢谢,威尔