问题标签 [data-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4589 浏览

r - 从一组集合中找到所有不相交(不重叠)的集合

我的问题:需要从一组集合中找到所有不相交(不重叠)的集合。

背景:我正在使用比较系统发育方法来研究鸟类的性状进化。我有一棵树,大约有 300 种。这棵树可以分为子分支(即子树)。如果两个子分支不共享物种,则它们是独立的。我正在寻找一种算法(如果可能的话,还有一个 R 实现),它将找到所有可能的子进化枝分区,其中每个子进化枝具有大于 10 个分类单元并且都是独立的。每个子进化枝可以被认为是一个集合,当两个子进化枝是独立的(不共享物种)时,这些子进化枝是不相交的集合。

希望这很清楚,有人可以提供帮助。

干杯,格伦

以下代码生成示例数据集。其中 subclades 是所有可能的子分支(集合)的列表,我想从中采样 X 不相交的集合,其中集合的长度为 Y。

0 投票
1 回答
518 浏览

sql-server - 使用条件条件来更改 Row_Number 之类的操作

使用 SQL Server 2012。我正在使用变量来确定在我的整个数据集中满足“各种标准”的次数。我想把这些实例的一半做一件事“first_half_thing”,另一半做一个“second_half_thing”。当我只包含满足条件的那些实例时,它可以正常工作。但我想用 3 或 4 个不同版本的“各种标准”对我的整个数据集执行此操作。

我的第一次尝试是在满足“各种条件”时尝试更改@CriteriaMetCount 的值,并使用该计数来执行“first_half_thing”或“second_half_thing”,但这不起作用。有没有办法Partition by然后使用不同的“各种标准”

0 投票
1 回答
95 浏览

hadoop - 在 Hadoop 中生成多个相同大小的输出文件

有哪些方法可以在 Hadoop 中查找 X 数据范围,以便可以在 reducer 步骤中将这些范围用作分区?

0 投票
2 回答
3362 浏览

java - 将浮点数组划分为相似的段(聚类)

我有一个这样的浮点数组:

现在,我想像这样对数组进行分区:

// [200] 将被视为异常值,因为集群支持较少

我必须为几个数组找到这种段,我不知道分区大小应该是多少。我尝试通过使用 层次聚类(凝聚)来做到这一点,它给了我令人满意的结果。但是,问题是,有人建议我不要将聚类算法用于一维问题,因为它们没有理论上的理由(因为它们适用于多维数据)。

我花了很多时间寻找解决方案。但是,建议似乎完全不同,例如:thisthis VS。这个这个这个

我发现了另一个建议,而不是聚类,即自然休息优化。但是,这也需要像 K-means 一样声明分区号(对吗?)。

这很令人困惑(特别是因为我必须在几个数组上执行那种分段并且不可能知道最佳分区号)。

有什么方法可以找到分区(因此我们可以减少分区内的方差并最大化分区之间的方差)并具有一些理论依据?

任何指向文章/论文的指针(如果可用的 C/C++/Java 实现)具有一些理论依据将对我非常有帮助。

0 投票
1 回答
578 浏览

python-3.x - python中的展开循环以实现数据并行性,必须在MPI环境中工作

我需要执行一个作用于许多数据点的 for 循环,每个数据点都独立于任何其他数据点。

对于范围内的 x (1,10000000) some_procedure(x)

我需要通过利用数据并行性使其运行得更快,但我必须使用 MPI。

我正在使用 mpi4py 但对此完全陌生。理论上哪一个应该在选项 a 和 b 之间工作得更快,以及为什么:

一个。在 foo.py 中:

然后执行以下操作:

湾。或从 mpi4py import MPI
import sys client_script = 'some_procedure.py' comm = MPI.COMM_SELF.Spawn(sys.executable, args=[client_script], maxprocs=10000000)

非常感谢提前!!

0 投票
1 回答
664 浏览

sql - 如何为分组系列中的每个元素添加增量编号?

我面临一个问题,我有一个名为的表Group和一个名为 的表Entry。该Group表有一个主键Id。该Entry表有一个主键,一个表的Id外键被调用。该表还有一列。这是一个整数,它所做的只是告诉我顶部显示零的排序权重。GroupIdGroupIdEntryWeightWeight

基本上发生的事情是,有人在Weight设计数据库时使该字段为空。现在我需要通过并调整Weight以适应UNIQUE我们打算添加的约束:UNQIUE(GroupId, Weight)Entry表中。这基本上可以防止两个Entry条目在同一组中时具有相同的排序权重。

什么查询可以让我浏览所有现有数据,并简单地将Weight每个条目上的列从 0 到 N 逐组编号,其中 N 是 a 中的Entry条目数Group?我想根据 的 设置权重IdEntry以便给定中的最低Id者获得最低的。EntryGroupWeight

我想要一个大的查询,它将遍历Group表,连接所有Entry条目,然后遍历它们并分配序列。但是,我不知道从哪里开始。

0 投票
1 回答
79 浏览

awk - 按列进行数据分区

我有一个 50 行和 150 万列的大矩阵。在这 150 万列中,前两个是我的标题。

我正在尝试将我的数据按列分成小块。因此,例如每个小集合将是 50 行和 100 列。但是每个小数据必须有上面提到的前两列作为标题。

我试过了

或者

但以上都不起作用。

有没有一种有效的方法来做到这一点?

0 投票
1 回答
96 浏览

mysql - 我可以在分区表中创建哈希索引吗?

我有一个相当大的表,有 3 亿条记录(表存储大约 13GB)。

我已将此表划分为 10 个分区,但每个分区仍有近 3000 万条记录,这使得select xxx where column1 = "yyy"速度非常慢(每个简单的选择几乎 30 秒)。

现在我想通过添加一个用于查询数据的哈希索引来加速它column1,但结果是添加索引非常非常慢。

所以我想知道,是否有可能做到这一点?以及如何加快此操作?

0 投票
1 回答
327 浏览

sql-server - 多维数据集处理增量 1 个分区与多个

我有一个大立方体,处理时间太长了。我想更改我的多维数据集分区和处理选项。我知道增量过程会将新记录拉入多维数据集中。我的问题是,拥有多个分区并执行增量进程而不是仅拥有一个分区并执行增量进程是否有优势?我不希望每次处理时都会有大量新记录。

0 投票
5 回答
3048 浏览

python - 将所有分区迭代成k组?

假设我有一个列表 L。如何在 K 组的所有分区上获得迭代器?

示例:L = [ 2,3,5,7,11, 13],K = 3

3组所有可能分区的列表:

=== 更新 ===

我正在研究一个似乎有效的解决方案,所以我将复制粘贴它

输出: