3

假设我有一个名为 的数据集中表示的有links图,它有两个变量:from_idto_id。我想使用 SAS Data Step 做两件事:(1)计算节点数,(2)计算边数。

假设links数据集如下所示。

from_id    to_id
----------------
   1         2
   2         3
   3         1
   3         2

在此示例中,有 3 个节点和 4 条边。(我们可以假设 中没有重复的边links)。节点是 1、2 和 3。边是 1->2、2->3、3->1 和 3->2。

下面是一个 SAS 宏,它使用 SAS Data Step 和 proc sql 来计算节点和边。它工作得很好,但我希望使用 SAS Data Step 以便(可能)更快地计算节点和边。

/* display number of nodes and edges for graph */
%macro graph_info(links);
data nodes;
    set &links;
    node_id = from_id;
    output;
    node_id = to_id;
    output;
    keep node_id;
run;

proc sql noprint;
    select count(distinct node_id) into :numNodes from nodes;
quit;
proc datasets lib=work nolist;
    delete nodes;
quit;

proc sql noprint;
    select count(*) into :numEdges from &links;
quit;

%put Nodes: &numNodes;
%put Edges: &numEdges;
%mend;
4

1 回答 1

5

如果您有足够的内存,您可以使用散列对象来执行此操作。

请注意:此代码未经测试,因为我手头没有 SAS 安装。然而,基本思想应该有效。您遍历数据步骤,将每个节点添加到散列对象,并在最后一个对象上将宏变量设置为散列对象的大小。

data _null_;
  set links end=lastrec;
  format node_id 8.;
  if _N_ eq 1 then do;
    declare hash h();
    h.defineKey("node_id");
    h.defineDone();
  end;
  node_id = from_id;
  rc=h.find();
  if rc ne 0 then h.add();
  node_id = to_id;
  rc=h.find();
  if rc ne 0 then h.add();
  if lastrec then do;
    call symput('numLinks', put(h.num_items, 8. -L));
    call symput('numEdges', put(_N_, 8. -L));
  end;
run;
于 2012-11-09T20:27:08.140 回答