“data-partitioning”的相关标签问题

0 投票

2 回答

1263 浏览

matlab - MATLAB：使用开始和结束索引在多个部分中划分向量

我有一个1xN包含数据的数组，我想从中删除相关部分。基本上我有两个数组 -beginIndex和endIndex- 指示我需要提取哪些数据部分。

例子：

期望的结果是

我已经试过了

后者给了我相当于

我也试过accumarray，但聚合函数必须返回标量值。我真的很感激这里的一些帮助。

谢谢

matlab data-partitioning

2013-09-05T20:43:56.063

0 投票

2 回答

218 浏览

haskell - Haskell - 匹配类型实例

我定义了一个类似于以下的 Haskell 类型：

在某些时候，我需要一种方法来过滤[TypeData]所有非 TypeC 实例。我正在尝试编写的函数的签名是：

该partition功能似乎适合此：

但是，我无法弄清楚什么函数会匹配类型签名TypeData -> Bool。看起来我需要一个可以确定类型实例是否属于特定实例的函数。我知道我可以通过编写另一个函数 ( isTypeC (TypeC _) = True) 来使用模式匹配，但是是否有更通用的方式或匹配类型实例的 lineline 方式？

2013-09-09T21:10:50.943

0 投票

2 回答

2132 浏览

oracle - 从范围分区到范围间隔

我想从 Range Partition 移动到 Range-Interval，但我当前的表有一个分区，MAXVALUE并且用于分区的列允许空值:(

例如：假设我们有：

然后我们填充：

为了能够移动到间隔，我们需要删除带有的分区MAXVALUE，因此，应该将其他值移动到新分区。
51 不是问题，我会创建分区 where with VALUES LESS than 100，但是NULL那些呢？

我正在考虑更改为按范围分区之类的东西(NVL(b,0))，但我担心必须重新处理整个表（不可能，真实表有很多数据）。

任何想法？

oracle oracle11g data-partitioning

2013-09-17T07:50:18.857

0 投票

0 回答

106 浏览

mysql - 带主键的表分区

我在mysql中有一张表。这是该表的架构。

表的主键（loginid）与其他表作为外键链接。该表已经有 15,00,000 条记录。现在我想在这个表的'logindate'字段上创建范围分区。该字段不是主键的一部分。所以我的问题是如何在不更改主键和外键的情况下在“logindate”上创建分区？

mysql database partitioning database-partitioning data-partitioning

2013-10-09T10:28:22.710

0 投票

2 回答

251 浏览

python - 列表的所有 k 路分区的递归算法

我正在编写一个函数，它应该输出列表 A 的所有 k 路分区。这个问题显然是递归的，实现应该很简单：

输出

断言错误：

[[]，[]]

[[0], [0]]

我不明白输出。它应该[[0], []]代替[[0], [0]]. 我错过了什么？

注意：我知道如何编写一个不同的函数，否则append它会输出正确的结果。将所有分区迭代成k组？（第一个答案）

我不明白的是这个特定功能的行为。

python recursion data-partitioning

2013-10-14T03:43:40.273

0 投票

2 回答

3723 浏览

c# - 如何在不阻塞 GUI 的情况下等待线程完成？

我有 2863 个对象的数组。我希望每 1000 个对象有两次“运行”，通过 4 个线程（运行 PC # of CPU）读取数组数据。

目前我的源代码正在对数据进行分区以正确的线程数并运行：

单次运行大小（默认）= 1000 个元素
运行数 = 2
额外线程运行大小 = 866 个元素

开始运行 [1 / 2]
线程作为 readDCMTags(i=0,firstIndex=0, lastIndex=249
线程作为 readDCMTags(i=1 ,firstIndex=250, lastIndex=499
线程作为 readDCMTags(i=2,firstIndex=500, lastIndex=749
线程作为 readDCMTags(i=3,firstIndex=750, lastIndex=999

开始运行 [2 / 2]
线程作为 readDCMTags(i =0,firstIndex=1000, lastIndex=1249
线程作为 readDCMTags(i=1,firstIndex=1250, lastIndex=1499
线程作为 readDCMTags(i=2,firstIndex=1500, lastIndex=1749
线程作为 readDCMTags(i=3,firstIndex= 1750, lastIndex=1999
额外线程作为 readDCMTags(i=1,firstIndex=2000, lastIndex=2865

然而，当前源代码一次启动所有线程，而不是等待 RUN TO END。当我从当前运行中加入线程时，GUI 正在挂起。如何解决问题？

源代码是：

在循环之后添加for(int i = 0; i < nrOfThreads; i++)线程数组的连接命令，在进行下一个运行循环之前for(int z = 0; z < nrOfChunks; z++)挂起 GUI。

c#multithreading data-partitioning

2013-10-17T10:39:21.560

0 投票

2 回答

3118 浏览

r - 如何拆分数据 70:30 每次拆分时得到不同范围的数据

我目前正在使用 R 通过使用随机森林回归进行特征选择。我想在 70:30 拆分我的数据，这很容易做到。但是，我希望能够这样做 10 次，每 10 次获得一组与之前不同的示例。

这就是我目前正在做的事情，它非常适合 70:30 拆分我的数据。但是当我再次这样做时，我在训练集中得到了相同的 70% 的数据，在我的测试数据中得到了相同的 30% 的数据。我知道这就是 createDataPartition 的工作原理，但是有没有办法让它在下次执行时获得不同的 70% 的数据？

谢谢

r random-forest data-partitioning

2013-11-14T16:35:31.730

0 投票

1 回答

210 浏览

mysql - 对表中的数百万条记录进行分区或索引？

我有一张包含 20 多万条记录的表格（一个月内将达到 60 多条）。现在我必须非常快地获取记录。

我正在使用 MyISAM 引擎，我不想在插入记录期间产生问题（听说索引会伤害插入）。所以请告诉我哪个更好的索引或分区。

我应该使用哪些其他因素（缓存或缓冲）。如果可能，请举例说明。

谢谢

mysql performance indexing partitioning data-partitioning

2013-11-26T11:48:52.223

0 投票

2 回答

8597 浏览

hash - 散列 VS 索引

散列和索引都用于在某些预定义公式上对数据进行分区。但我无法理解两者之间的关键区别。

与散列一样，我们根据一些键值对来划分数据，类似地，在索引中，我们也在一些预定义的值上划分数据。

谁能帮我弄清楚散列和索引之间的区别，以及如何决定是使用散列还是索引。

hash indexing data-partitioning consistent-hashing

2013-12-16T21:26:01.537

0 投票

1 回答

1584 浏览

cassandra - Cassandra 没有在集群中的现有节点上平衡数据

问候，我已经配置了 3 节点 Cassandra 1.2.12 集群，我能够连接到主节点并在所有节点上创建键空间和表。但是，我想在我的集群上运行 YCSB，所以当我运行 YCSB 并加载数据时，它全部加载到 Master 上。由于我正在加载 1000000 条记录，因此我通过将该数字除以我拥有的节点数来计算初始令牌。当我运行 nodetool 我得到类似的东西：

有人有同样的问题吗？我曾尝试使用 tokengentool 来分配令牌和 diffrenet 分区（Murmur3 和 Random），它都是一样的，只是在主节点上加载所有数据。

问候，维罗尼卡。

cassandra data-partitioning ycsb

2013-12-17T19:59:36.950

问题标签 [data-partitioning]

Reference