问题标签 [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3586 浏览

screen-scraping - 如何最好地代表第 3 方筛选受密码保护的站点?

我想编写一个程序来分析你的梦幻棒球队并通知你推荐的行动,可能每天多次。问题是,你不是在我的网站上玩梦幻棒球,而是在雅虎、cbs 或 espn 等网站上玩。

在大多数这些网站上,梦幻球队和联赛是不公开的,因此您必须登录并成为联赛成员才能查看联赛中的球队。

我所需要的只是将每个站点上的团队页面的纯 html 发送到我的服务器,然后我可以在那里解析和分析文件并发送用户通知。

问题是我需要用户名/密码组合才能在需要时轻松地将这些数据发送到我的服务器而且我认为会有很多人不想将他们的 yahoo/espn/cbs 密码委托给我。

我想出了几种可能的方法来解决这个问题:

  1. 最明显的方法是要求他们提供托管团队所在站点的凭据。然后我可以通过编程方式登录并请求我需要的数据。我猜很多人会很乐意给我他们的证书,而他们中的一些人并没有这么多。

  2. 编写一个桌面客户端,然后用户下载该客户端。客户端需要他们的凭据,但它基本上可以做与基于服务器的版本完全相同的事情,登录,请求页面,并将页面发送回我的服务器。不同之处在于他们的密码永远不需要离开他们的桌面。他们的计算机需要打开,并且该程序需要运行才能使此方法起作用。

  3. 编写导航到我需要的页面的浏览器插件,使用从以前登录保存的 cookie 登录到站点,然后将页面发送回我的服务器。这不需要我的软件询问他们的密码,但如果 cookie 过期,我会感到很沮丧,而且我对浏览器插件了解不多。

我敢肯定还有其他选择,但这些是我迄今为止想出的。

我有两个问题: 1. 这种类型的任务还有哪些其他可能性?2. 我是否高估了人们不愿意给我他们的雅虎(例如)密码?选项(1)是否高于显而易见的选择?

评论中建议我尝试使用 yahoo 管道,这看起来是一个很有希望的建议,所以我对其进行了一些探索。现在看了这个,我不认为这是一个选择。所以,看起来我会选择选项 1。

0 投票
4 回答
1820 浏览

perl - 如何使用 Perl 登录 YouTube?

我正在尝试编写一个 Perl 脚本来连接我的 YouTube 帐户,但它似乎不起作用。基本上我只想连接到我的帐户,但显然它不起作用。我什至不知道如何调试它!也许它与https协议有关?

请赐教!提前致谢。


我正在做的是学习 perl 的网络功能,所以我不想使用除 wwwlib 或 mechanize 之外的任何库来完成工作。如何使用 perl 脚本连接到我的帐户?这是我现在的目标,希望有人可以发布脚本或纠正我的。谢谢你们的帮助。我现在正在测试 Webscarab..

0 投票
2 回答
919 浏览

.net - .NET WebRequest/WebResponse 能否正确翻译重音符号、变音符号和实体?

我使用 .NET 的 WebRequest 将自己的页面作为临时黑客“屏幕抓取”。

这很好用,但重音字符和变音字符不能正确翻译。

我想知道是否有一种方法可以使用.NET 的许多内置属性和方法使它们正确翻译。

这是我用来抓取页面的代码:

0 投票
5 回答
758 浏览

python - 查找 HTML 页面上的所有 IP

我想用 python 获取一个 HTML 页面,然后从中打印出所有的 IP。我将定义一个IP如下:

xxxx :是的

其中: x = 0 到 256 之间的数字。y = < 7 位数字。

谢谢。

0 投票
3 回答
250 浏览

php - 如何使用正则表达式从网页中提取数据?

我正在编写一个 curl 脚本来收集有关某些性犯罪者的信息,我开发了该脚本来获取如下所示的链接:

http://criminaljustice.state.ny.us/cgi/internet/nsor/...(截断的网址)

现在,当我们访问此链接时,我想在此页面上的所有字段下获取信息,例如罪犯 ID:、姓氏等,并将其放入我自己的变量中。我的正则表达式很弱,这就是我在这里的原因。还是有其他方法?

有人可以帮我这样做吗?

0 投票
2 回答
650 浏览

python - python-beautifulsoup 是否误报了我的 html?

据我所知,我每人有两台机器,运行 python 2.5 和 BeautifulSoup 3.1.0.1。

我正在尝试抓取http://utahcritseries.com/RawResults.aspx,使用:

在我的 Windows 机器上,我得到了正确的结果,即日期和事件名称的列表。在我的mac上,我没有。相反,我得到

我注意到的是,当我

在我的 Windows 机器上,tr 数据看起来与源 html 完全相同。请注意第二个表格行上的样式标记。这是前两行:

在我的 Mac 上,当我打印前两行时,样式信息会从 tr 标签中删除,并移到每个 td 字段中。我不明白为什么会这样。每隔一个日期值我都会得到 None ,因为 BeautifulSoup 每隔一个日期就放置一个字体标签。这是mac的输出:

我的脚本在 windows 下显示正确的结果 - 我需要做什么才能让我的 Mac 正常工作?

0 投票
4 回答
30730 浏览

php - curl 无法获取网页内容,为什么?

我正在使用 curl 脚本转到链接并获取其内容以进行进一步操作。以下是链接和 curl 脚本:

但是该网站并没有通过脚本将其排除在外,它会在结果中给用户异常,但是如果我们通常将 url 粘贴到浏览器中,它会完美地打开页面。

请帮忙,我在这里做错了什么。

谢谢并恭祝安康

0 投票
5 回答
3653 浏览

python - Python lxml屏幕抓取?

我需要用 python 做一些 HTML 解析。经过一些研究,lxml 似乎是我最好的选择,但我很难找到可以帮助我完成我想做的事情的例子。这就是我听到的原因。我需要为所有可见文本抓取一个页面.. 去掉所有标签和 javascript.. 我需要它给我留下可见的文本。听起来很简单.. 我用 HTMLParser 做到了,但它不能很好地处理 javascript

任何关于使用 lxml 或更好的方法来做到这一点的想法 HTMLParser .. HTMLParser 将是最好的,因为不需要额外的库 .. 谢谢大家

斯科特 F。

0 投票
5 回答
1781 浏览

python - 以编程方式登录网站以进行屏幕抓取的最佳方式是什么?(最好在 Python 中)

我希望能够以编程方式登录网站并定期从该网站获取一些信息。什么是使这尽可能简单的最佳工具?我更喜欢某种类型的 Python 库,因为我想更加精通 Python,但我愿意接受任何建议。

0 投票
4 回答
56004 浏览

c++ - 网页抓取选项 - 仅限 C++ 版本

我正在寻找一个用于网络抓取的优秀 C++ 库。
必须是 C/C++,没有别的,所以请不要将我引导到HTML 抓取选项或其他甚至没有提到 C++ 的 SO 问题/答案。