7

我刚刚进入一个环境,我可以更自由地为项目选择我想要的任何方法(意味着完全访问 CPAN 并且没有模块批准由委员会),但我有点脱节有了新的热点,所以我想我会在这里征求意见。

我的项目涉及抓取具有不同格式(html、压缩文本、csv 等)的多个源,进行规范化,然后将它们处理到某种数据存储中。拉取需要以可编程的时间间隔发生,我想让后端模块化,以便类似的源可以使用相同的代码库。它还需要能够通过网络以简单的正在运行的进程状态进行响应(没什么花哨的)。我在想 POE 可能是一个好主意,有几个收集器进程向一个主控报告,但是 POE(或其他地方)中是否有任何人认为我应该看看的特定模块?

4

1 回答 1

1

WWW::Mechanize 是一个很好的从网页获取信息的模块。
它允许您通过提供登录名和密码登录网站,允许您提交表单等。

您可以在以下网址找到更多信息:http ://metacpan.org/pod/WWW::Mechanize

于 2011-08-17T18:54:23.833 回答