“partition-by”的相关标签问题

0 投票

1 回答

57 浏览

sql - SQL：按多列分组

我通过创建几个临时表并将它们加入我的数据库中来创建一个类似的表：

我想要实现的是：

我如何实现这一目标？

2016-06-01T01:32:04.440

0 投票

1 回答

1293 浏览

sql - 基于 SQL Server 中 10 秒时间间隔的 Group By 记录

要求是基于 10 秒的时间间隔对表的记录进行分组。给定表

组应该是这样的

对于 Rank 1，最短时间是 18:36:15，因此 18:36:15 到 18:36:24 之间的所有记录都应该在一个组中，依此类推。

我希望 GroupRank 在同一张表中。所以它会是带有 dense_Rank() Over 子句的东西。谁能帮我用 SQL 编写查询。

sql sql-server datetime dense-rank partition-by

2016-07-19T09:58:08.867

0 投票

2 回答

72 浏览

sql - 从 Oracle 表中选择上传历史

我有一个包含工厂列表的表（工厂 ID 和工厂名称）

用户每月将一些数据上传到每个工厂的历史表中。并且同一月份的现有工厂数据也将被不同的用户覆盖。因此历史表如下所示。

现在，我需要为每个工厂和每个月生成一份报告，这是最新上传的（上传者和上传时间），如果没有上传，则应显示为“未上传”。这将看起来像下面的东西。

请帮助得到这个。我尝试了分析功能。但没有运气。

sql oracle window-functions dense-rank partition-by

2016-11-29T14:07:56.613

0 投票

1 回答

10714 浏览

scala - 指定的分区列与表的分区列不匹配，请使用（）作为分区列

在这里，我试图将数据框保存到分区的配置单元表中并得到这个愚蠢的异常。我已经查看了很多次，但无法找到故障。

org.apache.spark.sql.AnalysisException：指定的分区列（时间戳值）与表的分区列不匹配。请使用 () 作为分区列。

这是创建外部表的脚本，

这是对表格“ events2 ”进行描述格式化的结果

这是数据被分区并存储到表中的代码行，

运行应用程序时，我得到以下信息

指定的分区列（timestamp_val）与表的分区列不匹配。请使用（）作为分区列。

我可能犯了一个明显的错误，任何帮助都非常感谢支持:)

scala hadoop hive external-tables partition-by

2017-01-12T05:42:24.937

0 投票

1 回答

172 浏览

我有一个包含客户 ID 和客户支出的客户数据集。我需要根据客户发送将客户数据集分成 3 组（高消费客户、中消费客户、低消费客户）。我尝试使用 RANK 和 Partitio，但我无法给出组数（3）。有没有其他方法可以用 Teradata 做到这一点。如果有 9 个客户，我需要先按花费的金额对他们进行排序，然后将他们分成 3 组，并计算每个组下有多少客户（3）。还要确定每个组下花费金额的最小值和最大值

比如说，客户 F、G、我花了 9 美元到 12 美元，属于高消费客户 A、B、D 花了 4 美元到 8 美元，中等消费客户 C、E、H 花了 1 美元到 3 美元，是在低支出下

输出应该是 GROUP(1,2,3) ；#Cuts(3,3,3); Min_Spend($9,$4,$1); MAX_SPEND($12,$8,$3)

sql group-by teradata rank partition-by

2017-01-23T21:01:37.820

0 投票

2 回答

577 浏览

sql - SQL Server DENSE_RANK()

我有一个表格，其中每个行项目都包含一个单元编号、日期戳和床位数。每天为每个单元创建一个包含床位数量的记录。

我正在尝试获取数据并创建一个如下表所示的表。

问题是有 24 张病床的行被合并以获得这些结果。

我尝试使用 DENSE_RANK 分配一个排名以用作分组编号来分隔 24 个床位的实例。我希望分组值是 1,2,2,3,4,4。相反，grouper 值是 1,2,2,3,2,2。

sql sql-server gaps-and-islands dense-rank partition-by

2017-03-07T19:29:55.207

0 投票

0 回答

401 浏览

apache-spark - PySpark PartitionBy 写入 S3 文件时超时

以下代码试图从一个输入 S3 路径中获取一堆文件，然后将它们写入单个 S3 文件夹，文件夹名称作为输入数据中的日期列。

输入文件为每个部分文件 15MB，文件总数约为 8000 个。输出预计将写入 900 个文件夹，因为存在 900 天。但在 S3 写入失败后运行 1 1/2 小时后，这些作业会超时或出错。我认为这个问题是由于编写了太多的小部分 S3 文件。我是新手，有什么方法可以设置正确的参数以加快速度并避免过多的 S3 文件？

apache-spark amazon-s3 pyspark partition-by

2017-04-26T23:11:34.890

0 投票

2 回答

3670 浏览

sql-server - 选择最近记录的最佳方法

所以我使用的数据库没有一个很好的方法来通过它的唯一 ID 选择最近的数字。我们必须缩小范围以获取最近的记录，其中包含一堆连接到原始表的子查询。原始表是 TBL_POL。前任。

所以首先我们获取最大加载日期并加入原始表，然后获取最大背书#，然后重新加入并获取最大序列，然后重新加入并获取最大提取日期，最终回到我们的最终记录，所以这将是独一无二的。上面是一个例子。

有没有更简单的方法来做到这一点？有人提到 row_number() over(partition by)，但我认为这只会返回您想要的任何行号。我想要一种快速的方法，一次滑动即可获取所有上述所有属性的最多记录。有没有人有更好的主意来做到这一点，因为这些查询需要一些时间来运行。

谢谢

sql-server database row-number partition-by

user7966039

2017-05-05T00:20:02.030

0 投票

1 回答

7157 浏览

sql - 按分区或级别 SQL 的行之间的日期差异

我正在使用 Microsoft SQL Server。我有一个表用户 ID 和登录日期。我将日期最初存储为日期时间，但我将它们转换为日期。我需要显示按用户 ID 分组的每个登录之间的日期差异（以天为单位）；如果用户 ID 更改，我希望该功能不计算登录之间的差异。我的表的一个例子是：

有许多类似的帖子，我试图建立我的查询。但是，我输出的 datediff 似乎并不总是与日期匹配。这是我最近的尝试：

输出样本为：

我没有结婚使用cte。

sql sql-server datediff partition-by

2017-05-16T02:41:38.177

0 投票

1 回答

2394 浏览

oracle - Oracle 'Partition By' 和 'Row_Number' 关键字以及数据透视

我有其他人写的这个查询，我试图弄清楚它是如何工作的。我对所有这些事情都有大致的了解，例如row_number(), partition by，pivot但我无法一起理解它们。

对于这个查询：

这是上述查询工作的输入表：

这是查询生成的输出，根据问题是正确的：

现在，我想知道查询是如何生成输出的，即逐步执行流程。与上述情况相匹配的简单示例的解释将不胜感激。提前致谢。

oracle pivot row-number partition-by

2017-07-06T12:50:37.317

问题标签 [partition-by]

sql - SQL：按多列分组

sql - 基于 SQL Server 中 10 秒时间间隔的 Group By 记录

sql - 从 Oracle 表中选择上传历史

scala - 指定的分区列与表的分区列不匹配，请使用（）作为分区列

sql - Teradata 中低端客户

sql - SQL Server DENSE_RANK()

apache-spark - PySpark PartitionBy 写入 S3 文件时超时

sql-server - 选择最近记录的最佳方法

sql - 按分区或级别 SQL 的行之间的日期差异

oracle - Oracle 'Partition By' 和 'Row_Number' 关键字以及数据透视

问题标签 [partition-by]

Reference