问题标签 [data-transform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2061 浏览

azure - 从 Azure 表存储中删除列

这是我用来从表存储中读取实体的代码片段:

不幸的是,这段代码将返回一些存在于我已删除的实体中的属性。

有人可以解释这是为什么吗?

0 投票
4 回答
9687 浏览

c# - 如何将逗号分隔的字符串转换为换行符分隔的字符串?

我有一个逗号分隔的字符串。如何将其转换为换行符分隔格式。我的字符串如下所示:

并且需要以这种方式格式化:

这是我的代码:

0 投票
3 回答
5931 浏览

azure - 重命名 Azure 存储表?

不能重命名 Azure 存储表吗?

我似乎无法在网上找到任何东西(甚至没有 cmdlet)。在 Visual Studio Server Explorer、Cloud Storage Studio 或 TableXplorer 中没有此选项。

0 投票
3 回答
7565 浏览

r - 将各种虚拟/逻辑变量从它们在 R 中的名称转换为单个分类变量/因子

我的问题与这个问题和另一个问题有很大的相似之处,但我的数据集有点不同,我似乎无法让这些解决方案发挥作用。如果我误解了什么并且这个问题是多余的,请原谅我。

我有一个这样的数据集:

(请注意,除了这些列之外,我还有很多其他列不应受到当前操作的影响。)

因此,我观察到conditionA、和是互斥的,应该更好地表示为单个分类变量,即conditionB应该如下所示:conditionCconditionDfactor


我已经使用gatheror unitefrom进行了调查tidyr,但它与这种情况不对应(使用unite,我们会丢失变量名中的信息)。

我尝试使用kimisc::coalescence.na,如第一个参考答案中所建议的那样,但是 1. 我需要首先根据每列的名称设置一个因子值,2. 它不能按预期工作,仅包括第一列:

我尝试了第二个问题的其他建议,但还没有找到一个能给我带来预期结果的建议......

0 投票
2 回答
37 浏览

json - 如何转换 JSON

我有以下 JSON 数据结构:

那是我的data

现在我想要类似的东西:

转换的正确代码是什么?

0 投票
3 回答
4997 浏览

azure - Azure 表存储 - 删除列

我认为这是不可能的,但是无论我问这个问题,也许我错过了一些东西。

我们可以从天蓝色表中添加/删除列吗?

例如,默认情况下我们会得到这些列:PartitionKey、RowKey、Timestamp、ETag。例如,我可以添加另外 3 个:FirstName、LastName、Email 列吗?

之后我将插入一些值,我想删除列电子邮件并添加列地址。我们可以这样做吗?

0 投票
1 回答
675 浏览

apache-spark - 在 Spark Structured Stream 中使用自定义数据转换功能

我阅读了以下博客,发现 API 非常有用。

https://databricks.com/blog/2017/02/23/working-complex-data-formats-structured-streaming-apache-spark-2-1.html

在博客中,有很多数据选择示例。就像使用输入

应用Scala: events.select("a.b"),输出将是

但是博客中没有提到数据类型转换。说我有以下输入:

预期的输出是:

有一些转换未包含在org.apache.spark.sql.functions._

  • 时间戳在秒,是字符串类型
  • 将IP转换为长
  • 拆分USD256为两列并将其中一列转换为数字
  • 将字符串转换为数字

另一件事是错误处理和默认值。如果输入无效,例如:

预计输出可以是

  • 输入timestampInSec不是数字。预计使用 0 并创建一个时间戳字符串作为返回值
  • ip输入中缺少。预计使用默认值 0。
  • money字段不完整。它有金额但错过了货币。预计将NA用作默认货币并正确翻译money_amount
  • countInString不是一个数字。预计使用-1( not 0 ) 作为默认值。

这些需求并不常见,需要一些自定义的业务逻辑代码。

我确实检查了一些功能,例如to_timestamp. 有一些代码生成的东西,似乎不太容易添加新功能。是否有一些关于编写自定义转换函数的指南/文档?有没有简单的方法来满足要求?

0 投票
1 回答
313 浏览

oracle - 检查数据转换 oracle etl

我是 oracle 的新手,我想知道作为 ETL 测试过程的一部分,我们如何验证父子关系、比较值范围和验证数据类型。(这两个表可以是 T1 和 T2)。请让我知道一个示例查询。

例如:T1 是临时加载表,T2 是新表。我们需要确保 T1 和 T2 之间的所有数据在变量值范围、关系和数据类型的上下文中都是有效的。

谢谢,桑托什

0 投票
2 回答
2209 浏览

python - TypeError: argument of type 'int' is not iterable - python 3.5

While doing data transformation, I am getting "TypeError: argument of type 'int' is not iterable", I am using python 3.5

This is the code snippet,

This is the output

What could be the problem?

0 投票
2 回答
671 浏览

r - 在R中合并和填充不同长度的数据

我正在使用 R 并且需要合并具有不同长度的数据

关注这个数据集

请注意,2 tibble 具有不同的长度。“出口国”是国家。

有什么方法可以合并两个小标题,查看因素(导出器)并用“na”填充缺失的部分?

不管是 tibble、dataframe 还是其他类型。

像这样: