问题标签 [www-mechanize]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1602 浏览

perl - 为什么我的 WWW::Mechanize 程序在尝试登录时会超时?

我正在屏幕抓取的站点(我有信誉)最近更改了他们的服务器并阻止了端口 80。我以为我可以将端口 443 用于 https,但我现在收到超时错误。我只是创建一个新的 WWW::Mechanize 对象并使用 get() 来抓取网站。

我的问题是,既然他们使用 https,我是否需要添加 cookie?

这是添加饼干罐的正确方法吗?

这是错误:

正在尝试登录... 2010-04-22
14:00:08 发布
https://theURL/j_security_check时出错:
已超过登录过程允许的时间。如果您想继续,您必须单击两次并重新单击您请求的链接,或者关闭并重新打开您的浏览器 lib/mypackage.pm 第 40 行

这甚至是cookie问题吗?

有没有办法增加登录时间,即使我通过浏览器登录网站,感觉在我登录之前也需要 60 到 90 秒。

0 投票
3 回答
4036 浏览

perl - 为什么 Perl 的 WWW::Mechanize 不能通过字段名找到表单?

运行此代码时会停止并显示错误消息:

./sms.pl 第 65 行中没有请求字段的表单
无法在 /usr/share/perl5/vendor_perl/WWW/Mechanize.pm 第 1348 行的未定义值上调用方法“值”。

0 投票
3 回答
2848 浏览

perl - 为什么在我的 Perl WWW::Mechanize 脚本中每次获取页面时都会获得一个新的会话 ID?

所以我正在抓取一个我可以通过 HTTPS 访问的网站,我可以登录并启动该过程,但每次我点击一个新页面 (URL) 时,cookie 会话 ID 都会发生变化。如何保留登录的 Cookie 会话 ID?

输出:

另外我认为该站点需要 CERT(在浏览器中确实如此),这是添加它的正确方法吗?

同样对于 CERT 在使用此列表中的第一个选项时,这是否正确?

0 投票
4 回答
3487 浏览

perl - 如何让 WWW-Mechanize 登录富国银行的网站?

我正在尝试使用 Perl 的WWW::Mechanize登录我的银行并提取交易信息。通过浏览器登录我的银行(富国银行)后,它会短暂显示一个临时网页,上面写着“请稍候,我们正在验证您的身份”。几秒钟后,它进入银行的网页,我可以在其中获取我的银行数据。唯一的区别是 URL 包含更多附加到临时页面 URL 的“GET”参数,该临时页面只有一个 sessionID 参数。

我能够成功地让 WWW::Mechanize 从登录页面登录,但它卡在了临时页面上。标题中有一个<meta http-equiv="Refresh"... 标签,所以我尝试了,$mech->follow_meta_redirect但它也没有让我通过那个临时页面。

任何帮助克服这一点将不胜感激。提前致谢。

这是让我卡在临时页面的准系统代码:

0 投票
1 回答
506 浏览

perl - WWW::Mechanize::Plugin::Display - 总是打开一个新窗口

如何配置 WWW::Mechanize::Plugin::Display,以便插件始终打开一个新窗口而不仅仅是一个新选项卡?

0 投票
1 回答
1285 浏览

php - WWW::机械化 VS 卷曲

背景:我需要为所有用户获取更新的数据。数据驻留在安全站点上,因此脚本需要登录(使用 cookie) 遍历一些内部 URL,然后获取所需的数据。

工具:WWW::Mechanize 或 Curl

什么是满足我需求的最佳工具?性能是一个大问题,我需要尽快获取更新的数据,因为我需要为大量用户获取更新的数据。

是否可以使用 WWW::Mechanize 库启动多个请求?

更新:

我使用 Curl 让它运行起来。但我在想我可以使用 Mechanize 加快速度。哪个库在 HTTP 请求方面表现更好?有没有统计数据?现在我正在使用带有多界面的 Curl。

0 投票
3 回答
5083 浏览

perl - 如何使用 Perl 从网站下载链接目标?

我刚刚编写了一个脚本来从网站获取链接,然后将它们保存到文本文件中。

现在我正在处理我的正则表达式,因此它将php?dl=从文本文件中获取包含在 url 中的链接:

例如:www.example.com/site/admin/a_files.php?dl=33931

当您将鼠标悬停在dl网站上的按钮上时,它几乎就是您获得的地址。您可以从中单击下载或“右键单击保存”。

我只是想知道如何实现这一点,必须下载将下载*.txt文件的给定地址的内容。当然,一切都来自剧本。

0 投票
1 回答
143 浏览

perl - 下载文件有问题

我正在尝试使用 perl 从站点下载文件。我选择不使用 wget 以便我可以学习如何这样做。我不确定我的页面是否没有连接,或者我的语法是否有问题。还有什么是检查您是否正在连接到页面的最佳方法。

0 投票
3 回答
2137 浏览

perl - 如何在 WWW::Mechanize 中获取被跟踪链接的内容?

这是我希望的最后一个问题。我正在使用 $mech->follow_link 尝试下载文件。出于某种原因,虽然保存的文件只是我第一次打开的页面,而不是我想要关注的链接。这是我应该从链接下载文件的正确方法吗?我不想使用 wget。

0 投票
2 回答
1269 浏览

perl - 如何使用 WWW::Mechanize 获取与正则表达式匹配的链接?

我正在尝试使用正则表达式来捕获链接,但不能。我有所有的链接,但是有很多链接不想要。

我所做的是抓取所有链接: http://valeptr.com/scripts/runner.php?IM= 遵守这种模式。

我把我正在做的脚本:

PS:我猜这个正则表达式会多见而不见。如果是这样,我会回来发布相同的帖子。

问题:有一堆链接,我需要与老板过期的链接: Http: // valeptr.com/scripts/runner.php?IM= 对于第 19 行中的它,我必须应用表达式调节。这个变量我的@links=$Explorador->links; 他返回所有存在的链接。但我只想要我上面放的链接。真挚地,