问题标签 [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
screen-scraping - 如何最好地代表第 3 方筛选受密码保护的站点?
我想编写一个程序来分析你的梦幻棒球队并通知你推荐的行动,可能每天多次。问题是,你不是在我的网站上玩梦幻棒球,而是在雅虎、cbs 或 espn 等网站上玩。
在大多数这些网站上,梦幻球队和联赛是不公开的,因此您必须登录并成为联赛成员才能查看联赛中的球队。
我所需要的只是将每个站点上的团队页面的纯 html 发送到我的服务器,然后我可以在那里解析和分析文件并发送用户通知。
问题是我需要用户名/密码组合才能在需要时轻松地将这些数据发送到我的服务器,而且我认为会有很多人不想将他们的 yahoo/espn/cbs 密码委托给我。
我想出了几种可能的方法来解决这个问题:
最明显的方法是要求他们提供托管团队所在站点的凭据。然后我可以通过编程方式登录并请求我需要的数据。我猜很多人会很乐意给我他们的证书,而他们中的一些人并没有这么多。
编写一个桌面客户端,然后用户下载该客户端。客户端需要他们的凭据,但它基本上可以做与基于服务器的版本完全相同的事情,登录,请求页面,并将页面发送回我的服务器。不同之处在于他们的密码永远不需要离开他们的桌面。他们的计算机需要打开,并且该程序需要运行才能使此方法起作用。
编写导航到我需要的页面的浏览器插件,使用从以前登录保存的 cookie 登录到站点,然后将页面发送回我的服务器。这不需要我的软件询问他们的密码,但如果 cookie 过期,我会感到很沮丧,而且我对浏览器插件了解不多。
我敢肯定还有其他选择,但这些是我迄今为止想出的。
我有两个问题: 1. 这种类型的任务还有哪些其他可能性?2. 我是否高估了人们不愿意给我他们的雅虎(例如)密码?选项(1)是否高于显而易见的选择?
评论中建议我尝试使用 yahoo 管道,这看起来是一个很有希望的建议,所以我对其进行了一些探索。现在看了这个,我不认为这是一个选择。所以,看起来我会选择选项 1。
perl - 如何使用 Perl 登录 YouTube?
我正在尝试编写一个 Perl 脚本来连接我的 YouTube 帐户,但它似乎不起作用。基本上我只想连接到我的帐户,但显然它不起作用。我什至不知道如何调试它!也许它与https协议有关?
请赐教!提前致谢。
我正在做的是学习 perl 的网络功能,所以我不想使用除 wwwlib 或 mechanize 之外的任何库来完成工作。如何使用 perl 脚本连接到我的帐户?这是我现在的目标,希望有人可以发布脚本或纠正我的。谢谢你们的帮助。我现在正在测试 Webscarab..
.net - .NET WebRequest/WebResponse 能否正确翻译重音符号、变音符号和实体?
我使用 .NET 的 WebRequest 将自己的页面作为临时黑客“屏幕抓取”。
这很好用,但重音字符和变音字符不能正确翻译。
我想知道是否有一种方法可以使用.NET 的许多内置属性和方法使它们正确翻译。
这是我用来抓取页面的代码:
python - 查找 HTML 页面上的所有 IP
我想用 python 获取一个 HTML 页面,然后从中打印出所有的 IP。我将定义一个IP如下:
x。x。x。x :是的
其中: x = 0 到 256 之间的数字。y = < 7 位数字。
谢谢。
php - 如何使用正则表达式从网页中提取数据?
我正在编写一个 curl 脚本来收集有关某些性犯罪者的信息,我开发了该脚本来获取如下所示的链接:
http://criminaljustice.state.ny.us/cgi/internet/nsor/...(截断的网址)
现在,当我们访问此链接时,我想在此页面上的所有字段下获取信息,例如罪犯 ID:、姓氏等,并将其放入我自己的变量中。我的正则表达式很弱,这就是我在这里的原因。还是有其他方法?
有人可以帮我这样做吗?
python - python-beautifulsoup 是否误报了我的 html?
据我所知,我每人有两台机器,运行 python 2.5 和 BeautifulSoup 3.1.0.1。
我正在尝试抓取http://utahcritseries.com/RawResults.aspx,使用:
在我的 Windows 机器上,我得到了正确的结果,即日期和事件名称的列表。在我的mac上,我没有。相反,我得到
我注意到的是,当我
在我的 Windows 机器上,tr 数据看起来与源 html 完全相同。请注意第二个表格行上的样式标记。这是前两行:
在我的 Mac 上,当我打印前两行时,样式信息会从 tr 标签中删除,并移到每个 td 字段中。我不明白为什么会这样。每隔一个日期值我都会得到 None ,因为 BeautifulSoup 每隔一个日期就放置一个字体标签。这是mac的输出:
我的脚本在 windows 下显示正确的结果 - 我需要做什么才能让我的 Mac 正常工作?
php - curl 无法获取网页内容,为什么?
我正在使用 curl 脚本转到链接并获取其内容以进行进一步操作。以下是链接和 curl 脚本:
但是该网站并没有通过脚本将其排除在外,它会在结果中给用户异常,但是如果我们通常将 url 粘贴到浏览器中,它会完美地打开页面。
请帮忙,我在这里做错了什么。
谢谢并恭祝安康
python - Python lxml屏幕抓取?
我需要用 python 做一些 HTML 解析。经过一些研究,lxml 似乎是我最好的选择,但我很难找到可以帮助我完成我想做的事情的例子。这就是我听到的原因。我需要为所有可见文本抓取一个页面.. 去掉所有标签和 javascript.. 我需要它给我留下可见的文本。听起来很简单.. 我用 HTMLParser 做到了,但它不能很好地处理 javascript
任何关于使用 lxml 或更好的方法来做到这一点的想法 HTMLParser .. HTMLParser 将是最好的,因为不需要额外的库 .. 谢谢大家
斯科特 F。
python - 以编程方式登录网站以进行屏幕抓取的最佳方式是什么?(最好在 Python 中)
我希望能够以编程方式登录网站并定期从该网站获取一些信息。什么是使这尽可能简单的最佳工具?我更喜欢某种类型的 Python 库,因为我想更加精通 Python,但我愿意接受任何建议。
c++ - 网页抓取选项 - 仅限 C++ 版本
我正在寻找一个用于网络抓取的优秀 C++ 库。
它必须是 C/C++,没有别的,所以请不要将我引导到HTML 抓取选项或其他甚至没有提到 C++ 的 SO 问题/答案。