问题标签 [lwp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3237 浏览

perl - 使用 Perl(或任何语言)在 Linux 中打开 URL?

我是 Perl 脚本的新手。我想解析一个文本文件,对解析后的文本进行编码并附加在 URL 中。如果您知道任何资源,请指出我正确的资源。这是我的主要问题。

现在,我尝试使用 Perl 中的 LWP 模块运行 URL 并将其保存在文本文件中。我使用以下程序连接到 Google,但收到“401 UNAUTHORIZED”错误。请帮忙 - 我应该在哪里提供我的用户身份验证详细信息和密码?

0 投票
2 回答
68 浏览

browser-detection - 如何判断网站如何确定浏览器是否启用了 JS?

我们有一个 Perl 脚本,它模拟浏览器LWP::UserAgent用于登录网站并下载一些数据。最近该网站已更改,因此您必须启用 JavaScript 才能登录。我们如何判断网站正在做什么以确定是否启用了 JavaScript,和/或我们如何使用LWP::UserAgent欺骗网站使其认为它是支持 JavaScript 的浏览器?

0 投票
3 回答
605 浏览

php - PHP Simple HTML DOM 或 Python-BSoup:哪一个是更简单的方法?

我目前正在研究一种方法来解析一个包含欧洲基金会数据的网站。

http://www.foundationfinder.ch/拥有 790 个基金会的数据集。所有数据均可免费使用 - 不受版权限制。

目标是什么:我想解析数据并将其保存在本地:为了更好的检索和更方便的使用方式:也许可以将其存储到 Calc / 甚至更好的 MySQL-Database。

问题:用 Perl 解析 HTML 的最简单方法是什么我应该使用 LWP 还是 Mechanize:哪个更简单!?

有朋友叫我试试Python!?美丽的汤。我想到了一种使用 Perl LWP 或 Python Beautiful Soup 的方法。其他方法来解析这样一个我看不到的网站。好的,有一种方法 - 使用 PHP。当然,我们可以通过某种方式使用 PHP(和 Curl)

哪种方法最好。Perl 与 LWP 还是机械化?还是 Python 的……?

除了语言问题:任何人都可以在第一步中帮助我。- 帮助进入赛道!?我期待收到您的来信

认为零

0 投票
1 回答
310 浏览

mysql - Perl::Mechanize:使用循环运行一个简单的爬虫[多个查询]

目前正在研究一种解析页面数据的方法:http ://www.foundationfinder.ch/

我喜欢在 Perl 中做这件事:嗯 - 我只是在思考这是完成这项工作的最佳方式。猜猜我正处于一个很好的学习曲线前面。;) 这个任务会给我一些很好的 Perl 课程。目前它有点超出我的头绪......;-)

所以这是一个示例页面:

查看结果页面

...并且正如我认为的那样,我可以在 Id= 0 和 Id= 100000 之间的某个范围内找到所有 790 个结果页,我想,我可以使用循环:

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html http://www.foundationfinder。 ch/ShowDetails.php?Id=949&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=20011&InterfaceLanguage=1&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id= 10579&InterfaceLanguage=1&Type=Html

我以为我可以采用 Perl 方式,但我不太确定:我试图在具有不同查询参数的相同 URL [见下文] 上使用 LWP::UserAgent,我想知道 LWP::UserAgent 是否提供我们循环查询参数的方式?我不确定 LWP::UserAgent 是否有办法让我们做到这一点。嗯 - 我有时听说使用机械化更容易。但是真的容易吗!?

顺便提一句; 但是,如果我采用 PHP 方式,我可以使用 Curl 来实现 - 我不能!?

这是我的方法:我试图弄清楚。我更深入地研究了手册页和 Howtos。我们可以有一个循环构造 URL 并使用 Curl - 重复

如上所述:这里有一些结果页面;

http://www.foundationfinder.ch/ShowDetails.php?Id=11233&InterfaceLanguage=&Type=Html http://www.foundationfinder.ch/ShowDetails.php?Id=927&InterfaceLanguage=1&Type=Html

或者,我们可以添加一个 request_prepare 处理程序,在发送请求之前计算并添加查询参数。

再次:目的是什么:我想解析数据,然后我想将其存储在本地 MySQL 数据库中

我应该定义一个 extern_uid !?

然后像这样:

好吧,但现在我被卡住了——我需要帮助——我能做这样的工作吗!?

问候

0 投票
3 回答
5872 浏览

perl - 使用 LWP 和 Perl 登录网站

有点缺乏经验的程序员在这里试图编写一个程序来登录我的课程站点并下载所有内容(讲座作业等)。显然它是一个受密码保护的网站,所以我必须给它。我非常了解 LWP::UserAgent 之类的东西,并且我需要使用凭据。我不知道如何进入下一页。我可以去登录,但是perl如何得到我的登录结果呢?

代码示例(我显然提取了日志信息):

来自响应的内容与我得到的内容相同,就好像我没有通过任何凭据一样。显然我在这里遗漏了一些东西....

哦,另一件事,据我所知,我自己的课程网站没有唯一的网址。

0 投票
2 回答
516 浏览

perl - 在 Perl 中测试重定向

我希望使用 Perl 检查网页重定向。我试过使用 LWP,但它只捕获 503 重定向,而不是 htaccess 重定向或 Javascript 重定向。任何帮助将不胜感激。

谢谢

0 投票
1 回答
566 浏览

perl - HTML::TableExtract 没有找到表

我在编写一些代码时遇到问题。它基本上是我自己的概念证明,我将用它来运行单词以获得另一种形式(有趣的冰岛语共轭)。在代码中,我必须有一个 if 语句,以防单词本身的 URL 导致多个结果。从那里我找到相关链接,从那里获取内容并使用 TableExtract 来获取我需要的表格。除了我没有得到任何有用的东西。

我承认我在这方面相对较新(几乎正好一周前写了我的第一个 perl)。但我完全被难住了,大量的谷歌搜索没有发现任何有用的东西。

0 投票
1 回答
390 浏览

perl - 需要的建议:使用 Perl 的 web-spider

蜘蛛应该:

  1. 通过发布登录表单登录
  2. 通过 cookie 维护登录状态
  3. 跟随主页中的随机链接

蜘蛛的目的是让新网站保持忙碌,模拟许多用户正在浏览它。

我看过 LWP 和 WWW::Mechanize。不确定应该使用哪个模块,或任何其他更好的建议。如果您有代码示例非常好。

谢谢。

0 投票
1 回答
3612 浏览

perl - “get”在 perl 中不起作用

我是 perl 的新手。在过去的几天里,我做了一些简单的脚本,通过“get”将网站的源代码保存到我的电脑中。他们做他们应该做的事,但不会获得作为论坛的网站的内容。非论坛网站工作得很好。知道发生了什么吗?这是问题块:

0 投票
1 回答
23010 浏览

perl - LWP HTTPS GET 上的连接失败或“证书验证失败”

我昨天在 Perl Monks 上发布了这个问题,但它对所有尝试过它的人都有效(参见http://www.perlmonks.org/?node_id=909968)。但是,我使用了不同的 URL,希望能简化问题。

我正在尝试通过 HTTPS 连接到 api.betfair.com,他们有一个有效的证书,我已经在我的浏览器中验证了该证书。我正在运行 ubuntu 并且有 2 个版本的 Perl。通过 perlbrew 安装的系统 5.10.0 工作和 5.14.0 失败。代码是:

在系统 Perl 5.10.0 下运行它工作正常,我得到:

在 Perl 5.14.0 下运行它我得到: Content-Type: text/plain Client-Date: Fri, 17 Jun 2011 08:34:30 GMT Client-Warning: Internal response Can't connect to api.betfair.com:443

如果我取消注释 HTTPS_CA_FILE 的设置并在 5.14.0 中重新运行,我会得到:

我在版本 20110409 上安装了 Mozilla::CA。Mozilla::CA::SSL_ca_file() 返回“/home/martin/perl5/perlbrew/perls/perl-5.14.0/lib/site_perl/5.14.0/Mozilla/CA /cacert.pem”,它存在并且我可以阅读。我在 Perl 5.14.0 中使用 LWP 6.02,在 Perl 5.10.0 中使用 5.836。我读到设置 HTTPS_DEBUG=1 应该输出一些调试信息,但它只在使用 Perl 5.10.0 而不是 5.14.0 时这样做(对我来说)。

我无论如何都不是 SSL 专家,但我尝试了一些我发现的东西,但它们让我更加困惑:

更新:我认为这是因为我设置了 PERL_UNICODE=SAL 但取消设置并不能解决问题。

更新:版本:Linux ubuntu 10.10 代号 maverick openssl 0.9.80(我相信我的 ubuntu 发行版是最新的