多年来,我一直在使用 Perl 为各种不同的目的进行爬网和抓取,但一直困扰着我的一件事是,有大量用于小规模抓取和爬网的出色 CPAN 模块,例如 LWP、WWW::Mechanize、Web ::Scraper、AnyEvent::HTTP 和现在的 Mojo::UserAgent,似乎没有任何爬行框架与其他语言的爬行框架相同。
例如 Apache Nutch (/Droids) 和 Scrapy (Python)。
有人知道 Perl 中的任何等效项目吗?
多年来,我一直在使用 Perl 为各种不同的目的进行爬网和抓取,但一直困扰着我的一件事是,有大量用于小规模抓取和爬网的出色 CPAN 模块,例如 LWP、WWW::Mechanize、Web ::Scraper、AnyEvent::HTTP 和现在的 Mojo::UserAgent,似乎没有任何爬行框架与其他语言的爬行框架相同。
例如 Apache Nutch (/Droids) 和 Scrapy (Python)。
有人知道 Perl 中的任何等效项目吗?
您可能需要查看诸如HTML::Robot::Scraper或 HTTP::UserAgentString::Robot之类的模块,我认为它们的名称中还有一些带有机器人的模块。