performance - Erlang rpc:pmap 在多个节点上与单个节点

Question

我正在尝试将我的计算与rpc:pmap. 但我对它的表现有点困惑。

这是一个简单的例子：

-module(my_module).
-compile(export_all).

    do_apply( X, F ) -> F( X ).

首先 - 在单个节点上测试：

1> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X) -> timer:sleep(10), X end], lists:seq(1,10000)] ).
{208198,
 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
  23,24,25,26,27|...]}

之后，我连接了第二个节点（我的操作系统中的第二个 erlang shell 进程）：

(foo@Stemm.local)24> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X) -> timer:sleep(10), X end], lists:seq(1,10000)] ).
{446284,
 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
  23,24,25,26,27|...]}

最后我连接了第三个节点：

(foo@Stemm.local)26> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X) -> timer:sleep(10), X end], lists:seq(1,10000)] ).
{483399,
 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
  23,24,25,26,27|...]}

所以 - 我的三个节点与单节点的性能更差。

我意识到节点之间的通信存在一些开销。但是我如何理解在哪些情况下更好地在多个节点上执行计算呢？

编辑：

我在 shell 中的逐步测试：

1> c(my_module).
{ok,my_module}
2>  
2> List = lists:seq(1,10000).
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
 23,24,25,26,27,28,29|...]

单节点性能测试：

3> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X)-> timer:sleep(10), X end], List] ).
{207346,
 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
  23,24,25,26,27|...]}

网络环境入口：

4> net_kernel:start([one]).
{ok,<0.20066.0>}
(one@Stemm.local)5> erlang:set_cookie(node(), foobar).
true

添加第二个节点：

(one@Stemm.local)6> net_kernel:connect('two@Stemm.local').
true
(one@Stemm.local)7> 
(one@Stemm.local)7> nodes().
['two@Stemm.local']

使用两个节点测试性能：

(one@Stemm.local)8> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X)-> timer:sleep(10), X end], List] ).
{510733,
 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
  23,24,25,26,27|...]}

连接第三个节点：

(one@Stemm.local)9> net_kernel:connect('three@Stemm.local').
true
(one@Stemm.local)10> nodes().
['two@Stemm.local',
 'three@Stemm.local']

用三个节点测试性能：

(one@Stemm.local)11> timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X)-> timer:sleep(10), X end], List] ).
{496278,
 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
  23,24,25,26,27|...]}

PS我猜性能会下降，因为我在同一台物理机器上将每个节点创建为一个新的 erlang-shell 进程。但我不知道我是否正确。

score 3 · Accepted Answer

您无需添加节点即可在 Erlang 中获得并行性。每个节点可以在本地支持大量进程。 pmap已经在并行运行您的函数。如果您延长等待时间，这更容易看出：

timer:tc( rpc, pmap, [{my_module, do_apply}, [fun(X) -> timer:sleep(1000), X end], lists:seq(1,10000)] ).
{1158174,
 [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,
  23,24,25,26,27|...]}

如果睡眠在一个节点上按顺序运行，那么您会期望最少等待1000 * 10000 = 10,000,000，而我们只需要等待1,158,174

您正在创建 3 个独立的 Erlang VM，并将它们相互连接。然后，您在其中一个虚拟机上运行并行映射。额外的虚拟机只会损害您当前设置的性能，因为它们都试图使用相同的物理资源，其中 2 个甚至没有运行任何工作。

多个节点只有在不同的物理资源上运行时才会有助于提高性能。

performance - Erlang rpc:pmap 在多个节点上与单个节点

1 回答 1

Related

Reference