“dremel”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

46 浏览

sql - 查找行之间的时间差

我需要按用户计算 IssueID 的声明时间总声明时间是从状态声明到最近等待的时间。看起来有点复杂请帮忙。

例如，对于 peter，总索赔时间从 '2019-08-23 0:25:41' 到第一个等待时间 '2019-08-23 0:26:12' 和下一个从 '2019-08-23 20' 开始： 14:13' 到 '2019-08-23 20:14:52'。所有这些时间差加起来就是彼得声称的总时间，第一次大约是 31 秒，第二次大约是 39 秒。大约 70 秒。

提前致谢

`

2019-09-23T10:49:09.740

0 投票

2 回答

246 浏览

sql - 计算每个用户在 sql 问题中花费的时间

我有一个表，我有多个用户在工作，我需要根据声明的状态计算每个用户花费的总时间

期望的结果

sql google-bigquery dremel

2019-09-24T12:07:56.757

0 投票

1 回答

103 浏览

sql - 在 SQL 中组合两个组

我希望将两个组的指标组合在一个字段下，而该字段中的其他组保持独立。我该怎么做？

我正在提取操作指标并按不同的 pod 对它们进行分组。我有 pod A、B、C 和 D。我想组合 pod B 和 C 以获得 pod A、pod D 和 pod B_C 组合的指标。

以上为我提供了 pod A、B、C 和 D 的卷。但是，我正在寻找一种方法将 pod B 和 C 的卷组合成一行。（显然这不是我的实际代码，但应该足以理解这一点。）

sql dremel

2019-10-10T19:15:13.337

0 投票

1 回答

43 浏览

mysql - 我怎样才能使这个查询更好？这是 CASE 语句的正确用法吗？

在注册“心理学”课程的学生中。他们中有多少人的 GPA > 3？

学生：

课程：

学生课程等级：

请注意：

Student_course_grade 表中的成绩字段是 (5,4,3,2,1) 中的数字，而不是像 (A,B,C,D,E) 这样的字母成绩
对于已注册课程但尚未完成课程的学生，成绩将为空。
GPA= 平均成绩（学生所有成绩的平均值）

答：

mysql sql dremel

2019-10-13T04:16:04.030

0 投票

0 回答

33 浏览

sql - 基于 SESSION_USER 的动态过滤器

我有一个包含用户名的行的表。我有两个用户将查看表格，我想过滤表格以根据 session_user 的身份显示特定的用户名。这可能吗？

样本数据

如果 session_user() = 'A'，表应该只显示

如果 session_user() = 'B'，表应该只显示

附加条件：除了 2 个查看者之外，所有用户名都将被添加为查看者，但也将仅针对他们自己的数据进行过滤。

所以基本上，如果查看者是其中一个用户名，那么它只会显示他们自己的数据，但如果它是经理之一，表格将显示分配给他们的用户名。

sql dremel

2020-02-19T15:15:51.357

0 投票

1 回答

1121 浏览

apache-spark - 了解使用 parquet-tools “meta”命令打印的 Parquet File 的元数据信息

我正在学习 Parquet File 的内部表示，所以我通过 Apache Parquet 的 Github页面、Google Dremel 的论文了解定义和重复级别以及 Twitter 的博客以了解有关 Parquet 文件的更多信息。

为了将我通过阅读获得的对它的表示的理解与实际的 Parquet 文件表示联系起来，我使用parquet-tools带有meta选项的命令作为示例 Parquet 文件之一，它打印了包含 3 个主要部分的详细信息，标题、文件模式和 Row_groups。我理解了前 2 部分中提供的细节，但我无法完全理解行组部分中的所有细节。

以下是我的问题。

想了解更多关于什么DO, FPO, VC（这看起来像当前行组中所有行的计数）是什么。可以在 parquet-tools Github页面中找到它所代表的扩展，但我想了解更多关于它的详细信息。我明白什么SZ和ST是什么。
在我旁边，ENC我看到了编码方案列表，如BIT_PACKED, PLAIN, RLE。我单独理解它的含义，但我不明白为什么一直使用至少 3 种编码方案。
在行组的记录计数RC和总大小旁边，我看到. 对于第一页，它总是 4。是怎么计算的？。TSOFFSET
我知道 Parquet 文件的页眉和页脚有 4 位魔术代码为“PAR1”，它有什么特殊含义吗？或者只是一些任意文本来确定文件是否为 Parquet（不取决于文件扩展名）。

不幸的是，由于安全限制，我无法附上parquet-tools meta命令输出的片段，但我希望在每个问题中可视化我的意思不会太多。

apache-spark parquet dremel

2020-06-05T20:13:20.410

0 投票

0 回答

121 浏览

parquet - Dremel，重复字段中的空值

我有一个这样的结构（我在这里使用 JSON 来表示数据，但这可以是任何形式的对象）：

根据 Dremel 规范，此处提交的唯一数据“DocID”（重复）的重复{0,1,0}级别是，定义级别是{1,1,0}因为最后一项为空。

现在，如果我有这样的事情：

再说一遍，重复级别是{0,1,0}，定义级别是{0,1,1}

为了在 parquet 中存储 Dremel 数据，我们从不存储空字段（此处）

所以在这种情况下我们存储两个值"A", "B"（编码无关紧要），但是对于构造结构，第一个 RLevel 为零，所以这是一个新对象的开始，第一个 DLevel 是 1，所以 this 不为空。我们读取第一个值，即“A”（正确），第二个 RLevel 为 1，这意味着它仍然是同一个对象，它是一个重复字段，DLevel 为 1，因此它不为空，我们读取第二个值这是“B”（正确）。第三个 RLevel 为 0，这意味着一个新对象。在第一个示例中，DLevel 为零，因此它为空，我们不需要读取任何内容（没有任何内容）并且它可以工作。但是在第二种情况下，DLevel 是 1，所以我们需要读取一些东西，而没有什么可读取的了。

在这种情况下我们应该怎么做？

就上下文而言，我是fraugster/parquet-go库的合著者，这是我们最近面临的问题。

parquet dremel

2020-12-08T21:32:08.510

0 投票

1 回答

45 浏览

sql - 嵌套 SQL 查询：如何从每个日志中返回一个样本

我正在尝试实现一个嵌套查询，以便每个日志提取不超过一个样本，我想我知道如何分别实现它的组件：

查询一组包含与我的分析相关的数据的日志：

这会产生一个日志名称列表，例如“log_name_2021_09_01”、“log_name_2021_09_03”等。

从单个已知日志中查询不超过一个具有特定条件的事件：

上述查询为指定日志返回的样本不超过一个。

如何组合这些查询以从查询 1 返回的一组日志中提取样本，同时每个日志不应超过一个样本？

更新：
假设一个数据库包含三个日志：

日志名称_2021_09_01。与日志关联的 object_type 是 ROCKET。日志包含 100k 个数据样本：其中 90k 的 object.speed = 0.0，其中 10k 的 speed > 0.0。
日志名称_2021_09_02。与日志关联的 object_type 是 CAR。该日志还包含 100k 个样本，其比例与 log 1 相似。
日志名称_2021_09_03。与日志关联的 object_type 是 ROCKET。该日志还包含 100k 个样本，其比例与 log 1 相似。

我只对对象类型为 ROCKET 的日志感兴趣。两个日志对应这个条件：log_name_2021_09_01 和 log_name_2021_09_03。这些日志名称可以通过上面描述的查询 1 获得。我只想从两个日志中的每一个中提取一个样本点（速度 > 0）。也就是说，最后我想要一个返回两个样本的查询：一个来自 log_name_2021_09_01，一个来自 log_name_2021_09_03。

sql dremel

2021-10-01T17:18:23.203

0 投票

0 回答

27 浏览

sql - 无法使用表中的 CTE Row_number() 删除重复行（Google SQL / Dremel SQL）

我正在尝试使用 CTE 和 Row_number() 从表中删除任何重复的行。我正在研究 Google SQL。

我尝试了不同的方法，但仍然收到此错误消息：

我在这里错过了什么吗？

感谢任何建议或意见

谢谢！

sql dremel

2021-12-18T06:28:47.400

0 投票

0 回答

12 浏览

sql - 在 SQL 中，当所有其他“y-1”列值在这些“x”行中匹配时，如何从特定列的“x”行中创建一个值列表？

例如学生表：

我想要的输出：

sql dremel

2022-02-23T04:19:05.240

问题标签 [dremel]

Reference