我查找了有关使用 LWP 的文章,但我仍然迷路了!在这个网站上,我们找到了许多学校的名单;查看概述页面并点击一些链接并获得一些结果页面:
我想使用 LWP::UserAgent 解析站点并进行解析:想要使用 HTML::TreeBuilder::XPath 或 HTML::TokeParser
目前我正在考虑选择正确的获取请求!我对 LWP::Useragent 有一些问题。可以通过直接链接访问概览的子站点。但是-注意:每个站点都有内容。例如,上述结果页面的以下 URL。
作为新手,我无法通过发布完整 URL 向您展示不同结尾的结尾,但在这里您可以看到结尾:
id=21&extern_eid=709
id=21&extern_eid=789
id=21&extern_eid=1297
id=21&extern_eid=761
URL 末尾有许多不同的 URL。问题是:我如何运行 LWP::UserAgent?我想要获取和解析 & ** 所有 - 1000 个站点。**
问题; LWP 会自动完成这项工作吗!?还是我必须设置 LWP :: UserAgent 它会自动查找不同的 URL...
解决方案:也许我们必须从零数到 10000
extern_eid=709 -(从零计数到 100000)这里
www-db.sn.schule.de/index.php?id=21&extern_eid=709
顺便说一句:这里是 LWP 用户代理的数据;
请求方法 本节中描述的方法用于通过用户代理发送请求。提供以下请求方法:
$ua->get( $url ) $ua->get( $url , $field_name => $value, ... )
此方法将在给定的 $url 上发送一个 GET 请求。可以提供更多参数来初始化请求的标头。这些以单独的名称/值对的形式给出。返回值是一个响应对象。有关它提供的接口的描述,请参阅 HTTP::Response。当 LWP 无法连接到 URL 中指定的服务器或协议处理程序发生其他故障时,仍然会返回一个响应对象。
问题是:如何以正确的方式在上述站点上使用 LWP::UserAgent - 有效!?
我期待着任何和所有的帮助!