architecture - Erlang OTP 应用程序设计

Question

当我将一些代码转换为 OTP 应用程序时，我正在努力掌握 OTP 开发模型。

我本质上是在制作一个网络爬虫，但我只是不太清楚将执行实际工作的代码放在哪里。

我有一个主管来启动我的工人：

-behaviour(supervisor).
-define(CHILD(I, Type), {I, {I, start_link, []}, permanent, 5000, Type, [I]}).

init(_Args) ->          
  Children = [
    ?CHILD(crawler, worker)
  ],  
  RestartStrategy = {one_for_one, 0, 1},
  {ok, {RestartStrategy, Children}}.

在这个设计中，Crawler Worker 负责做实际的工作：

-behaviour(gen_server).

start_link() ->
  gen_server:start_link(?MODULE, [], []).

init([]) ->
  inets:start(),        
  httpc:set_options([{verbose_mode,true}]), 
  % gen_server:cast(?MODULE, crawl),
  % ok = do_crawl(),
  {ok, #state{}}.

do_crawl() ->
  % crawl!
  ok.

handle_cast(crawl}, State) -> 
  ok = do_crawl(),
  {noreply, State};

do_crawl产生了相当多的进程和请求来处理通过 http 进行的爬取工作。

最终的问题是：实际的抓取应该在哪里发生？从上面可以看出，我一直在尝试不同的方式来触发实际工作，但仍然缺少一些对于探索事物组合方式必不可少的概念。

注意：为简洁起见，省略了一些 OTP 管道 - 管道都在那里，系统都挂在一起

score 12 · Accepted Answer

如果我把你的问题弄错了，我深表歉意。

我可以提出一些建议来指导您朝着正确的方向前进（或者我认为是正确的方向:)

1（相当次要，但仍然很重要）我建议从该工作程序中获取 inets 启动代码并将其放入应用程序状态代码（appname_app.erl）中。据我所知，您正在使用钢筋模板，因此您应该拥有这些模板。

2 现在，到关键部分。为了充分利用 OTP 的监督者模型，假设您要生成大量的爬虫，使用simple_one_for_one监督者而不是one_for_one会很有意义（阅读http://www.erlang. org/doc/man/supervisor.html以获取更多详细信息，但基本部分是： simple_one_for_one - 简化的 one_for_one 主管，其中所有子进程都是动态添加的相同进程类型的实例，即运行相同的代码。）。因此，您实际上将指定一种“模板”，而不是只启动一个进程进行监督——关于如何启动正在执行实际工作的工作进程。这种类型的每个工人都开始使用主管：start_child/2 — http://erldocs.com/R14B01/stdlib/supervisor.html?i=1&search=start_chi#start_child/2。在您明确启动它们之前，这些工人都不会启动。

2.1 根据爬虫的性质，您可能需要评估您的工作人员需要什么样的重启策略。现在，在您的模板中，您已将其设置为永久（但是您有不同类型的受监督孩子）。以下是您的选择：

 Restart defines when a terminated child process should be restarted. A permanent child process should always be restarted, 
 a temporary child process should never be restarted and a transient child process should be restarted only if it terminates 
 abnormally, i.e. with another exit reason than normal.

所以，你可能想要这样的东西：

 -behaviour(supervisor).
 -define(CHILD(I, Type, Restart), {I, {I, start_link, []}, Restart, 5000, Type, [I]}).

 init(_Args) ->          
     Children = [
          ?CHILD(crawler, worker, transient)
     ],  
     RestartStrategy = {simple_one_for_one, 0, 1},
    {ok, {RestartStrategy, Children}}.

我冒昧地建议这些孩子暂时重新启动，因为这对这类工人有意义（如果他们未能完成工作则重新启动，如果他们正常完成则不要重新启动）

2.2 一旦您处理完上述事项，您的主管将处理任意数量的动态添加的工作进程；它将监视并重新启动（如有必要）它们中的每一个，这大大提高了您的系统稳定性和可管理性。

3 现在，一个工作进程。我会假设每个爬虫都有一些特定的状态，它可能在任何给定的时刻处于。出于这个原因，我建议使用 gen_fsm（有限状态机，有关它们的更多信息，请访问http://learnyousomeerlang.com/finite-state-machines）。这样，您动态添加到主管的每个 gen_fsm 实例都应该在init/1中向自身发送一个事件（使用http://erldocs.com/R14B01/stdlib/gen_fsm.html?i=0&search=send_even#send_event/2）。

仅此而已：

   init([Arg1]) ->
       gen_fsm:send_event(self(), start),
       {ok, initialized, #state{ arg1 = Arg }}.

   initialized(start, State) ->
       %% do your work
       %% and then either switch to next state {next_state, ...
       %% or stop the thing: {stop, ...

请注意，您的工作可以包含在此 gen_fsm 进程中，也可以考虑为其生成一个单独的进程，具体取决于您的特定需求。

如果认为有必要，您可能希望为爬网的不同阶段设置多个状态名称。

无论哪种方式，希望这将有助于以某种 OTP 方式设计您的应用程序。如果您有任何问题，请告诉我，如有必要，我很乐意补充。

score 4 · Accepted Answer

您实际上是否在跟踪您的 gen_server 中的任何状态？

如果答案是肯定的，那么看起来您正在以正确的方式做事。请注意，由于消息是序列化的，因此通过上述实现，您不能同时进行两次爬网。如果您需要并发抓取，请在此处查看我的问题的答案。

如果答案是否定的，那么您可能会放弃服务器和主管，而只将应用程序模块用于任何初始化代码，如此处所示。

最后，lhttpc和ibrowse被认为是 inets 的更好替代品。我在广告服务器的生产环境中使用 lhttpc，效果很好。

score 3 · Accepted Answer

我对这个问题的解决方案是研究 Erlang Solutions “jobs”应用程序，它可用于调度作业（即请求页面）并让单独的系统处理每个作业，绑定并发等等。

然后，您可以将新的 url 输入到crawl_sched_mgr过滤 url 的进程中，然后生成新的作业。您也可以让请求者自己执行此操作。

如果你不想使用工作，Yurii 的建议是要走的路。

architecture - Erlang OTP 应用程序设计

3 回答 3

Related

Reference