问题标签 [data-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1263 浏览

matlab - MATLAB:使用开始和结束索引在多个部分中划分向量

我有一个1xN包含数据的数组,我想从中删除相关部分。基本上我有两个数组 -beginIndexendIndex- 指示我需要提取哪些数据部分。

例子:

期望的结果是

我已经试过了

后者给了我相当于

我也试过accumarray,但聚合函数必须返回标量值。我真的很感激这里的一些帮助。

谢谢

0 投票
2 回答
218 浏览

haskell - Haskell - 匹配类型实例

我定义了一个类似于以下的 Haskell 类型:

在某些时候,我需要一种方法来过滤[TypeData]所有非 TypeC 实例。我正在尝试编写的函数的签名是:

partition功能似乎适合此:

但是,我无法弄清楚什么函数会匹配类型签名TypeData -> Bool。看起来我需要一个可以确定类型实例是否属于特定实例的函数。我知道我可以通过编写另一个函数 ( isTypeC (TypeC _) = True) 来使用模式匹配,但是是否有更通用的方式或匹配类型实例的 lineline 方式?

0 投票
2 回答
2132 浏览

oracle - 从范围分区到范围间隔

我想从 Range Partition 移动到 Range-Interval,但我当前的表有一个分区,MAXVALUE并且用于分区的列允许空值:(

例如:假设我们有:

然后我们填充:

为了能够移动到间隔,我们需要删除带有 的分区MAXVALUE,因此,应该将其他值移动到新分区。
51 不是问题,我会创建分区 where with VALUES LESS than 100,但是NULL那些呢?

我正在考虑更改为按范围分区之类的东西(NVL(b,0)),但我担心必须重新处理整个表(不可能,真实表有很多数据)。

任何想法?

0 投票
0 回答
106 浏览

mysql - 带主键的表分区

我在mysql中有一张表。这是该表的架构。

表的主键(loginid)与其他表作为外键链接。该表已经有 15,00,000 条记录。现在我想在这个表的'logindate'字段上创建范围分区。该字段不是主键的一部分。所以我的问题是如何在不更改主键和外键的情况下在“logindate”上创建分区?

0 投票
2 回答
251 浏览

python - 列表的所有 k 路分区的递归算法

我正在编写一个函数,它应该输出列表 A 的所有 k 路分区。这个问题显然是递归的,实现应该很简单:

输出

断言错误:

[[],[]]

[[0], [0]]

我不明白输出。它应该[[0], []]代替[[0], [0]]. 我错过了什么?

注意:我知道如何编写一个不同的函数,否则append它会输出正确的结果。将所有分区迭代成k组?(第一个答案)

我不明白的是这个特定功能的行为。

0 投票
2 回答
3723 浏览

c# - 如何在不阻塞 GUI 的情况下等待线程完成?

我有 2863 个对象的数组。我希望每 1000 个对象有两次“运行”,通过 4 个线程(运行 PC # of CPU)读取数组数据。

目前我的源代码正在对数据进行分区以正确的线程数并运行:

单次运行大小(默认)= 1000 个元素
运行数 = 2
额外线程运行大小 = 866 个元素

开始运行 [1 / 2]
线程作为 readDCMTags(i=0,firstIndex=0, lastIndex=249
线程作为 readDCMTags(i=1 ,firstIndex=250, lastIndex=499
线程作为 readDCMTags(i=2,firstIndex=500, lastIndex=749
线程作为 readDCMTags(i=3,firstIndex=750, lastIndex=999

开始运行 [2 / 2]
线程作为 readDCMTags(i =0,firstIndex=1000, lastIndex=1249
线程作为 readDCMTags(i=1,firstIndex=1250, lastIndex=1499
线程作为 readDCMTags(i=2,firstIndex=1500, lastIndex=1749
线程作为 readDCMTags(i=3,firstIndex= 1750, lastIndex=1999
额外线程作为 readDCMTags(i=1,firstIndex=2000, lastIndex=2865

然而,当前源代码一次启动所有线程,而不是等待 RUN TO END。当我从当前运行中加入线程时,GUI 正在挂起。如何解决问题?

源代码是:

在循环之后添加for(int i = 0; i < nrOfThreads; i++)线程数组的连接命令,在进行下一个运行循环之前for(int z = 0; z < nrOfChunks; z++)挂起 GUI。

0 投票
2 回答
3118 浏览

r - 如何拆分数据 70:30 每次拆分时得到不同范围的数据

我目前正在使用 R 通过使用随机森林回归进行特征选择。我想在 70:30 拆分我的数据,这很容易做到。但是,我希望能够这样做 10 次,每 10 次获得一组与之前不同的示例。

这就是我目前正在做的事情,它非常适合 70:30 拆分我的数据。但是当我再次这样做时,我在训练集中得到了相同的 70% 的数据,在我的测试数据中得到了相同的 30% 的数据。我知道这就是 createDataPartition 的工作原理,但是有没有办法让它在下次执行时获得不同的 70% 的数据?

谢谢

0 投票
1 回答
210 浏览

mysql - 对表中的数百万条记录进行分区或索引?

我有一张包含 20 多万条记录的表格(一个月内将达到 60 多条)。现在我必须非常快地获取记录。

我正在使用 MyISAM 引擎,我不想在插入记录期间产生问题(听说索引会伤害插入)。所以请告诉我哪个更好的索引或分区。

我应该使用哪些其他因素(缓存或缓冲)。如果可能,请举例说明。

谢谢

0 投票
2 回答
8597 浏览

hash - 散列 VS 索引

散列和索引都用于在某些预定义公式上对数据进行分区。但我无法理解两者之间的关键区别。

与散列一样,我们根据一些键值对来划分数据,类似地,在索引中,我们也在一些预定义的值上划分数据。

谁能帮我弄清楚散列和索引之间的区别,以及如何决定是使用散列还是索引。

0 投票
1 回答
1584 浏览

cassandra - Cassandra 没有在集群中的现有节点上平衡数据

问候,我已经配置了 3 节点 Cassandra 1.2.12 集群,我能够连接到主节点并在所有节点上创建键空间和表。但是,我想在我的集群上运行 YCSB,所以当我运行 YCSB 并加载数据时,它全部加载到 Master 上。由于我正在加载 1000000 条记录,因此我通过将该数字除以我拥有的节点数来计算初始令牌。当我运行 nodetool 我得到类似的东西:

有人有同样的问题吗?我曾尝试使用 tokengentool 来分配令牌和 diffrenet 分区(Murmur3 和 Random),它都是一样的,只是在主节点上加载所有数据。

问候,维罗尼卡。