问题标签 [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
api - 如何动态查找到给定 URL 的入站链接?
Technorarati 有他们的Cosmos api,它工作得相当好,但限制了您用于非商业用途,并且每天不超过 500 个查询。
Yahoo 有一个Site Explorer InLink Data API,但它从字面上定义了任务,从博客中的侧边栏小部件返回链接,而不仅仅是来自博客内容内部的链接。
是否有任何其他替代方法可以跟踪谁链接到给定 URL(想想Techmeme.com上故事下方运行的讨论链接)?还是我必须自己动手?
python - 自动上课时间表优化爬虫?
总体规划
获取我的班级信息以自动优化和选择我的大学课程时间表
整体算法
- 使用其 Enterprise Sign On Engine 登录名登录网站
- 查找我当前的学期及其相关科目(预设置)
- 导航到右侧页面并获取每个相关主题的数据(讲座、实践和研讨会时间)
- 剥离无用信息的数据
- 将彼此接近的班级排名较高,随机日期的班级排名较低
- 解决最佳时间表解决方案
- 给我输出一份BEST CASE信息的详细清单
- 向我输出可能的类信息的详细列表(例如,有些可能是完整的)
- 获取程序以自动选择最佳课程
- 继续检查,看看我们是否可以达到 7。
6 详细 获取所有课程,以讲座为重点,排名最高(每个科目只有一个),并尝试围绕该课程安排课程。
问题
任何人都可以向我提供可能与希望用 python 编写的类似内容的链接吗?关于 6.:您建议将这些信息存储在什么数据结构中?每个uniclass对象的链表在哪里?我应该将所有信息写入文本文件吗?
我正在考虑将 uniclass 设置为以下属性:
- 学科
- 秩
- 时间
- 类型
- 老师
我在 Python 方面几乎没有经验,并认为这将是一个很好的学习项目,可以尝试完成。感谢您提供的任何帮助和链接,以帮助我开始,打开编辑以适当地标记或任何必要的(不知道这属于编程和 python 之外的什么?)
编辑:无法真正获得我想要的这个 SO 帖子的正确格式><
php - 使用 PHP 和 XPath 进行屏幕抓取
有谁知道在使用 XPath 提取数据时如何维护文本格式?
我目前正在提取所有块
<div class="info">
<h5>title</h5>
text <a href="somelink">anchor</a>
</div>
从一个页面。问题是当我访问 nodeValue 时,我只能得到纯文本。如何捕获包括格式在内的内容,即代码中的 h5 和静止图像?
提前致谢。我在谷歌上搜索了所有可以想象的组合,但没有运气。
java - 自动生成 HTTP 屏幕抓取 Java 代码
我需要筛选从网站上抓取一些数据,因为它不能通过他们的网络服务获得。当我以前需要这样做时,我已经使用 Apache 的 HTTP 客户端库自己编写了 Java 代码,以进行相关的 HTTP 调用来下载数据。在使用Charles Web 代理记录相应的 HTTP 调用时,我通过在浏览器中单击相关屏幕来找出我需要进行的相关调用。
正如您可以想象的那样,这是一个相当乏味的过程,我想知道是否有一个工具可以实际生成与浏览器会话相对应的 Java 代码。我希望生成的代码不会像手动编写的代码那样漂亮,但我总是可以在之后整理它。有谁知道这样的工具是否存在?Selenium 是我知道的一种可能性,但我不确定它是否支持这个确切的用例。
谢谢,唐
json - 提供 API 是否有助于阻止屏幕抓取?
最近我在这里一直在思考屏幕抓取以及它可能是一项什么样的任务。所以我提出以下问题。
作为站点开发人员,您是否会公开简单的 API 以防止用户抓取屏幕,例如 JSON 结果?
然后,这些结果可以实现缓存,并且它们的流量比可能下载的大量标记要小得多。
我不是在看预防,而是在阻止刮擦。
抓取带宽样本
((users * (% / 100)) * ((freq * 60) * 24)) * 文件大小
- 用户:200,000
- 使用实用程序的用户百分比:5
- 文件大小:1kb
- 频率:1分钟
公式:
((用户 * (% / 100)) * ((freq * 60) * 24)) * 文件大小
10,000 * 1440 * 1
14400000kb 或 13.73291015625gb
假设您的 JSON 结果是 200 字节,即现在 (10,000 * 1440 * 0.2) 或每天 2.74658203125gb。
这相当于每天大约 11GB 的流量变化。
我的 Stack Overflow 配置文件是 96k 以供参考。
这个问题的原因提示要求从用户配置文件中获取 JSON 结果:
http ://stackoverflow.uservoice.com/pages/general/suggestions/101342-add-json-for-user-information
我想了解其他开发人员是否会公开此类 API,以及是否值得您花时间提供这些 API 以减少带宽。
python - BeautifulSoup 3.1.0.1 和 Python 2.5.2 的 UnicodeEncodeError
使用 BeautifulSoup 3.1.0.1 和 Python 2.5.2,并尝试解析法语网页。但是,一旦我调用 findAll,我就会收到以下错误:
UnicodeEncodeError:“ascii”编解码器无法在位置 1146 编码字符 u'\xe9':序数不在范围内(128)
以下是我目前正在运行的代码:
有人知道为什么吗?
谢谢!
更新:根据要求,以下是完整的追溯
c# - 编写一个扫描电子商务网站并从中提取产品图片+价格+描述的C#程序
我正在开发一个电子商务搜索引擎,允许您在许多电子商务网站中搜索产品。
我该如何处理这件事?
我需要一个能够扫描网站、解析其 HTML 并确定网站中哪些图像是产品图像、哪些是产品描述、哪些是产品价格的应用程序。
很高兴听到任何想法,例如。
提前致谢。
编辑:我的问题不是如何从网站获取 HTML(这称为屏幕抓取),而是更多关于如何解析该信息并了解哪些 html 包含我正在寻找的实际数据,哪些不是。
php - 如何在 PHP 中实现屏幕刮板?
我有一个用户 ID 和密码,可以通过我的程序登录网站。登录后,URL 将从http://localhost/Test/loginpage.html更改为http://www.4wtech.com/csp/web/Employee/Login.csp。
如何使用 PHP 从第二个 URL 中“筛选”数据?
php - 抓取并生成 RSS 提要
我使用Simple HTML DOM来抓取一个页面以获取最新消息,然后使用这个PHP 类生成一个 RSS 提要。
这就是我现在所拥有的:
我怎样才能使这段代码更简单?知道有两个 foreach 语句,我该如何组合它们?
因为抓取的新闻是挪威语,所以我需要在标题上应用 html_entity_decode()。我在这里尝试过,但我无法让它工作:
谢谢 :)