3

我在 Chapel 中填充一个稀疏数组,其中包含一个读取 CSV 的循环。

我想知道最好的模式是什么。

var dnsDom = {1..n_dims, 1..n_dims};
var spsDom: sparse subdomain(dnsDom);
for line in file_reader.lines() {
   var i = line[1]:int;
   var j = line[2]:int;
   spsDom += (i,j);
}

这是一种有效的方法吗?
我应该创建一个临时的元组数组并附加spsDom每(比如)10,000 行吗?

谢谢!

4

1 回答 1

3

您在代码段中显示的方式将在每次+=操作时扩展稀疏域的内部数组。正如你所建议的;以某种方式缓冲读取的索引,然后批量添加它们肯定会因为添加索引数组的一些优化而表现得更好。

您可以类似地执行+=右侧是数组的操作:

spsDom += arrayOfIndices;

稀疏域上的这种运算符重载+=实际上是调用主要的批量添加方法bulkAdd。该方法本身有几个标志,可以帮助您在某些情况下获得更高的性能。请注意,+=重载bulkAdd以可能的“最安全”方式调用该方法。即索引数组可以按随机顺序排列,可以包含重复项等。如果您有数组(在您的情况下,您从文件中读取的索引)满足一些要求(它们是有序的吗?是否有重复项?您需要保留输入数组?),您可以bulkAdd直接使用并传递几个优化标志。

有关. _ _bulkAdd

编辑:建立在相关问题之上的片段:

var dnsDom = {1..n_dims, 1..n_dims};
var spsDom: sparse subdomain(dnsDom);

//create an index buffer
config const indexBufferSize = 100;
var indexBufferDom: {0..#indexBufferSize};
var indexBuffer: [indexBufferDom] 2*int;

var count = 0;
for line in file_reader.lines() {

  indexBuffer[count] = (line[1]:int, line[2]:int);
  count += 1;

  // bulk add indices if the buffer is full
  if count == indexBufferSize {
    spsDom.bulkAdd(indexBuffer, dataSorted=true,
                                preserveInds=false,
                                isUnique=true);
    count = 0;
  }
}

// dump the final buffer that is (most likely) partially filled
spsDom.bulkAdd(indexBuffer[0..#count],  dataSorted=true,
                                        preserveInds=false,
                                        isUnique=true);

我尚未对其进行测试,但我认为这应该抓住了基本思想。传递给 bulkAdd 的标志应该会产生最佳性能。当然,这取决于输入缓冲区被排序并且没有任何重复。另外,请注意,与连续的相比,初始的 bulkAdd 会快得多。而且它们可能会变慢,因为该方法需要筛选现有索引并在必要时移动它们。因此,更大的缓冲区可以提供更好的性能。

于 2017-07-24T18:40:26.143 回答