1

我有一个分布在 2 个节点上的应用程序。当我停止()第一个节点时,故障转移工作完美,但是(有时?)当我重新启动第一个节点时,接管失败并且应用程序崩溃,因为 start_link 返回已经启动。

SUPERVISOR REPORT  <0.60.0>                                 2009-05-20 12:12:01
===============================================================================
Reporting supervisor                          {local,twitter_server_supervisor}

Child process
   errorContext                                                     start_error
   reason                                         {already_started,<2415.62.0>}
   pid                                                                undefined
   name                                                                    tag1
   start_function                                {twitter_server,start_link,[]}
   restart_type                                                       permanent
   shutdown                                                               10000
   child_type                                                            worker

ok

我的应用

start(_Type, Args)->
    twitter_server_supervisor:start_link( Args ).

stop( _State )->
    ok.

我的主管:

start_link( Args ) ->
    supervisor:start_link( {local,?MODULE}, ?MODULE, Args ).    

两个节点都使用相同的 sys.config 文件。

我对这个过程不理解以上不应该工作的地方是什么?

4

1 回答 1

2

您的问题似乎源于 twitter 服务器主管试图启动它的一个孩子。由于错误报告抱怨带有 start_function 的孩子

{twitter_server,start_link,[]}

而且由于您没有显示该代码,我只能猜测它正在尝试为自己注册一个名称,但已经有一个使用该名称注册的进程。

更令人猜测的是,原因显示了一个 Pid,这个 Pid 的名字是我们试图为自己获取的:

{already_started,<2415.62.0>}

那里的 Pid 有一个非零的初始整数,如果它为零,则表示它是一个本地进程。从中我推断您正在尝试注册一个全局名称,并且您连接到另一个节点,其中已经有一个以该名称全局注册的进程。

于 2009-07-21T09:28:28.683 回答