“partition”的相关标签问题

0 投票

1 回答

1985 浏览

hive - Hive 0.13 外部表动态分区自定义模式

根据文档，您应该能够为分区 Hive 外部表 partitions指定自定义模式。但是，我无法让它工作： select * from rawlog_test7 limit 10;不返回任何记录。

这就是我正在做的

我用...创建我的表

我的目录结构是../2014/06/18/13/ ...

如果我使用静态分区

它有效（select * from rawlog_test7 limit 10;返回记录！）

2014-06-18T15:31:12.927

0 投票

1 回答

52 浏览

sql - 对多列进行排名

在查询优化的过程中，我得到了以下 SQL 查询：

查询返回与最新的 check_dt 对应的 DATA。但是，我想要得到的是： 1. DATA 对应最新的 check_dt 2. DATA 对应最新的inspection_dt。

一个简单的解决方案 - 只需编写两个单独的查询，其中一个条件是单一的 - 一个用于inspection_dt，一个用于check_dt。然而，这样就失去了最初的意图——缩短运行时间。

通过观察源数据，我注意到了实现它的方式——检查日期总是晚于检查日期；知道我可以只提取 rank = 1 的记录，它会给我对应于最新 CHECK_DT 的 DATA，而具有最大等级的记录将对应于 INSPECTION。但是，数据恐怕数据不会总是一致的，所以我一直在寻找更抽象的解决方案。

sql optimization partition

2014-06-25T03:26:19.860

0 投票

3 回答

11284 浏览

filesystems - 设备 vs 分区 vs 文件系统 vs 卷：这些概念如何准确地相互关联

从 Java 开发人员的角度来看，这些概念如何相互关联？

我的问题：有人可以为简单准确/普遍接受的定义提供解释或一些链接吗？谢了。

作为参考，我找到但我不清楚的文件：

http://arxiv.org/ftp/cs/papers/0508/0508063.pdf http://arxiv.org/ftp/cs/papers/0508/0508063.pdf

在谷歌上不是很幸运。

我最初的假设：

一开始是物理设备及其驱动程序。
分区是驱动程序提供的一部分设备的视图，与文件系统概念无关
卷是以某种方式组织的一组分区的名称（例如 RAID）
文件系统在卷的顶部以文件单元存储数据。
文件系统通常提供卷的树视图
文件系统树可以使用文件系统连接/链接功能静默包含其他文件系统树

filesystems storage partition volumes

2014-06-26T11:59:26.897

0 投票

1 回答

2964 浏览

sql - 如何使用移动窗口/分区或任何其他方法获得不同的每周活跃用户/不同的每月活跃用户？

一直在为此绞尽脑汁，不过这很有趣。我有一个表，其中每一行代表一个应用程序启动事件，从几个不同的应用程序记录。我正在使用 Redshift 数据库，因此使用 Redshift 的 Postgresql 实现。

此表中的每一行都有以下列：

应用程序 ID (app_id)
标识用户的 client_id
SQL 日期格式的日期（创造性地命名的日期）

我需要计算这个比率：

（每周不同的活跃用户）/（与本周不同的活跃用户并且是前三周）

这意味着，我不会像日历月份（1 月、2 月、3 月等）那样寻找月度活跃用户。

我需要计算该 ISO 周中不同的活跃用户除以该周的活跃用户以及前三周的活跃用户（因此 MAU 基本上超过了四个为期四周的活跃用户）。

现在，我有如下查询来获取每周活跃用户。周表示为“周数 - 年”。

它给出的数据如下面的截图所示：每周活跃用户截图正如你所看到的，针对每个 ISO 周和年，我有不同客户的数量。

为了将那一周的活跃用户和前三周的活跃用户放在一起，我最初使用 Lag 并根据上述数据对每周的前 3 周计数求和。然而，这个总和实际上并没有给我不同的用户，它只是每周不同客户的总和。如果同一个用户在第 1 周打开一个应用，然后在第 2 周再次打开，这种方法会被计算两次，这是不可接受的！

我需要在四个星期的移动窗口中找到不同的客户。我怀疑我需要使用以某种方式移动一周以上的分区，但我似乎无法编写或可视化此查询。

发布此消息后，我同样需要创建比率：从那天起的最近 30 天内不同的每日活跃用户数/不同的活跃用户数。

任何指导都会非常有帮助。这可以使用移动分区来完成吗？还是使用交叉应用（在 Postgresql 横向）？

希望这是有道理的！如果有任何不清楚的地方，请询问，我会立即回复更多信息。先谢谢各位了。

sql postgresql amazon-redshift partition active-users

2014-07-01T09:48:08.887

0 投票

3 回答

5460 浏览

hadoop - 使用 Spark 多次写入 hadoop 分布式文件系统

我创建了一个 spark 作业，它每天从我的 hdfs 中读取一个文本文件，并从文本文件的每一行中提取唯一键。每个文本文件中大约有 50000 个键。然后通过提取的密钥过滤相同的数据并保存到 hdfs。

我想在我的 hdfs 中创建一个目录，其结构为： hdfs://.../date/key 包含过滤后的数据。问题是写入 hdfs 需要很长时间，因为键太多了。

现在的写法：

有没有办法让它更快？我曾考虑将数据重新分区为提取的密钥数量，但我无法以 hdfs://.../date/key 格式保存。我也尝试过 groupByKey 但我无法保存这些值，因为它们不是 RDD。

任何帮助表示赞赏:)

hadoop hdfs apache-spark partition rdd

2014-07-01T22:31:35.143

0 投票

2 回答

235 浏览

algorithm - Finding nodes that partition a Graph

I have a non-directed graph that represents the connectivity between regions of a map. I'd like to identify groups of nodes (regions) that could be removed without creating graph partitions.

What I have tried:

Walking the tree (BFS, DFS...), storing the depths and selecting the nodes with the higher depth (O(n)). Once calculated, I can update the depths in O(~1) on each removal-addition by checking the depth of neighbour nodes (connectivity does not exceed a certain threshold)

Is there a cheaper way to do this? Also finding graph literature is also very hard if you don't know the academical term for the problem. My graphs are between 200 and 500 nodes.

algorithm graph language-agnostic partition

2014-07-10T10:00:53.223

0 投票

1 回答

136 浏览

postgresql - 索引字段上的 Postgresql 9.2 时间戳排序不会在一天内按小时部分排序

我无法相信我通过带有 ORDER BY 子句的简单选择所看到的。这是我的查询和错误结果：

如您所见，排序似乎是在id_variable而不是date_valid上完成的。为了获得预期的结果，我必须创建一个 Postgresql 无法优化的新字段或提供超过 1 天的时间戳范围：

这是一个部分表定义，它在每个月的 date_valid 上进行分区：

如果结果在同一天，Postgresql 不会按小时排序似乎是一个错误。这一定是一个优化器问题，因为如果我对另一个未编入索引的时间戳字段进行排序，我就没有这个问题。如果我在每个日期字符串之后指定 ::TIMESTAMP，或者如果我将选择包含在另一个上，则结果是相同的（未排序）：SELECT * FROM (SELECT ...) x ORDER BY DATE_VALID。我对其他具有类似结构的表也有同样的问题。

这是 Postgresql 9.2.8 的解释结果：

postgresql sorting timestamp postgresql-9.2 partition

2014-07-10T23:25:06.313

0 投票

2 回答

717 浏览

sql - 选择记录集中非 NULL 值后第一个 NULL 值的每条记录

我有一个 SQL 查询，它返回对一台设备的一组检查，其中有一列指示对记录集表示的设备进行维修的日期。如果在检查时未进行修复，则该字段为 NULL。有问题的设备将在其生命周期内多次维修。

我想在查询中查找具有最小 InspectionDate 的记录子集，每个记录之后具有非 NULL 修复日期，RepairDate 字段中的值为 NULL。

例如：

应该配对到：

我知道使用游标这将是一件相当微不足道的事情，但我试图避免使用它们，并且觉得这可以通过 PARTION、OVER 和 GROUP BY 的某种组合来完成，但我没有偶然发现正确的组合。

sql sql-server group-by sql-server-2012 partition

2014-07-15T14:40:32.870

0 投票

1 回答

97 浏览

linux - /的Linux文件属性

我在列出主“/”分区的文件属性时遇到了一些问题，即查看它是否不可变。运行一个简单的 'lsattr /' 会显示它下面的所有目录，不包括目录本身。

是否有一些带有“--”的技巧，或者只是一个可以检查这个的替代命令？在 Google 上搜索特殊字符非常困难，这无济于事。

linux attributes main drive partition

2014-07-17T13:57:42.620

0 投票

2 回答

2139 浏览

java - Kafka：从消费者端动态确定主题中分区数量的最佳方法是什么？

我们有 Java 代码来管理读取四个分区主题的 Kafka 流消费者的线程池（因此我们有四个消费者线程）。

动态检索分区数的推荐方法是什么，以便线程池 cat 中的初始化代码设置正确的线程数？

能够动态调整以适应越来越多的分区不是必需的。

查看 Java API (v.0.8.1) 我找不到直接的方法。目前我正在浏览 Scala 源代码，我看到了有前途的类（也欢迎 Scala 解决这个问题），但是我也想向社区询问这个问题，以防有人已经找到了一个很好的方法。

谢谢，

java scala apache-kafka partition

2014-07-18T16:20:38.460

问题标签 [partition]

Reference