1

我正在尝试在RcppArmadillo中编写一个将行动态附加到数组/矩阵的函数。它应该像rbindRPythonpandas.concat中一样工作。(我依靠C++来提高效率。)

我的具体目标是接收一个名为的向量foo并生成一个三列矩阵my_matrix,其中每一行都由某些条件确定。因为需要检查每个三元组 {i,j,k} 的条件,所以它涉及一个三元组循环。这是我到目前为止所拥有的(大写字母中的文字是我在此处包含的评论):

/* (From my RcppArmadillo script) */
arma::mat myFunction(arma::vec foo) {
  int n = foo.size();
  // initialize first row of column names
  arma::vec my_matrix[] = {"i", "j", "k"}; 
  // loop and append rows
  for(int i = 0; i < n; i++) {
    for(int j = 0; j < n; j++) {
      for(int k = 0; k < n; k++) { 
        if (SOME CONDITION ABOUT i,j,k and foo) {
          APPEND ROW {i,j,k} TO my_matrix 
          arma::vec new_row = {i,j,k};
          my_matrix = join_vert(my_matrix, new_row);
        }
      }
    }
  }
  return my_matrix;
}

我面临三个问题:

  1. 在线上arma::vec new_row = {i,j,k};,有人告诉我“在初始化列表中,非常量表达式不能从'int'类型缩小到'double'
  2. 在线上my_matrix = join_vert(my_matrix, new_row);,我被告知“没有匹配函数调用'join_vert'
  3. 在线上return my_matrix;,有人告诉我“从 'arma::vec [3]' 到 'arma::Mat'(又名 'Mat<<>>')没有可行的转换

因为我不熟悉C++(尤其是涉及迭代修改的问题 2 和 3),所以我被卡住了。这里有人可以帮助解决问题吗?提前致谢!

4

2 回答 2

7

数据(通常)本机存储为列,因此添加行并不那么明显。因为矩阵通常表示一个连续的向量,所以您需要完整的副本(以创建要填充的“洞”)。

您最好将不断增长的数据结构表示为列的集合,并让它们单独增长。这几乎就是 data.frame 的作用。

于 2019-12-14T19:30:21.030 回答
5

聆听 Dirk 的最佳实践——按列存储的数据是一个巨大的问题,您应该始终注意编写高效的代码。如果由于某种原因你不能听从他的建议,我只是单独写,机械地展示如何完成你所描述的事情。

这是我将(并且确实)使您的代码工作的方式:

  1. 已经new_row是一个arma::rowvec
  2. 已经my_matrix是一个arma::mat
  3. 设置R端的列名

现在让我们看看它是什么样子的。在 C++ 方面,我们有:

#include <RcppArmadillo.h>
// [[Rcpp::depends(RcppArmadillo)]]

// [[Rcpp::export(.myFunction)]]
arma::mat myFunction(arma::vec foo) {
    int n = foo.size();
    arma::mat my_matrix;
    // loop and append rows
    for(int i = 0; i < n; i++) {
        for(int j = 0; j < n; j++) {
            for(int k = 0; k < n; k++) {
                if ( (foo[i] + foo[j] + foo[k]) > 10.0 ) {
                    arma::rowvec new_row = {i,j,k};
                    my_matrix = arma::join_vert(my_matrix, new_row);
                }
            }
        }
    }
    return my_matrix;
}

然后在 R 侧:

myFunction <- function(foo) {
    res <- .myFunction(foo)
    colnames(res) <- c("i", "j", "k")
    return(res)
}

这是它的一个例子:

foo <- 1:4
myFunction(foo)

     i j k
[1,] 2 3 3
[2,] 3 2 3
[3,] 3 3 2
[4,] 3 3 3

顺便说一句,将来我将致力于制作更好的可重现示例。例如,在这里,您没有包含这些行

#include <RcppArmadillo.h>
// [[Rcpp::depends(RcppArmadillo)]]

在您的问题代码中。在这种情况下,这部分是一个小问题,因为可能有知识回答您问题的任何人都知道您需要这些行,但这仍然是不好的做法。

更重要的是,你不包括

  • i, j, k, 和的条件foo
  • 示例函数输入;或者
  • 所需的功能输出

所以,如你所见,我只需要自己编造这些东西。它可以帮助其他人帮助您提供更好的可重现示例,这只是对未来的提示!


PS:这不可能是解决这个问题的有效方法!

于 2019-12-15T13:23:25.350 回答