问题标签 [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
270 浏览

jquery - 使用 ajax 扫描 xml 中的链接,将链接应用到另一个 ajax 调用以抓取页面并返回数据

所以,我在发帖前试着环顾四周,但似乎找不到答案。我的困境:

我有一个 XML 文件,其中包含指向各个页面的 url 链接(所有类似的不同产品)。

通过使用 jQuery 和 AJAX,我可以从 XML 文件中提取链接。

然后,我希望能够按顺序将这些链接传递给另一个 AJAX 调用,该调用将使用代理服务器连接到另一个站点并抓取它以获取数据。在这种情况下,它是一个特定的类。然后,我需要能够收集该类中的数据并将其按顺序应用到我的站点中的跨度。

将等待抓取数据的 HTML 标记

JS 执行所有这些:

所以本质上,如果其他页面标记看起来像这样:

站点 1

站点 2

站点 3

我的标记应如下所示:

所以我想我的问题是,如何指定它们按顺序加载到我的标记中?我是否循环遍历 xml 中的链接,然后将它们放入 ajax --> 代理,然后循环遍历结果以吐出每个跨度?

任何帮助将不胜感激!谢谢!

0 投票
1 回答
278 浏览

php - 是否可以从会员网站抓取内容并生成 rss 提要?

是否可以从会员网站上抓取内容,以便我可以创建一个 Rss 提要以导入我的收件箱?

你看,我是几个为表演艺术行业提供选角电话的网站的成员(有些是付费的,有些是免费的),但他们中的大多数不提供最新选角电话更新的 Rss 提要,而我必须这样做每天烦躁地登录 7 个不同的网站,看看最新的选角电话是什么。有没有办法使用脚本/程序从这些页面内容创建 Rss 提要,以便我可以将其导入我的 gmail 收件箱?

我确信它可以使用 php 实现,但我不知道如何自动登录。

我已经联系了网站所有者以设置 RSS 提要,但已经发送了几个月的电子邮件,但我还没有收到回复。

0 投票
1 回答
571 浏览

applescript - Applescript 抓取网页

有一个很棒的网站叫 www.engrade.com。当您从各个班级登录时,您可以从网站上获取您的成绩。

现在,Applescript 是否可以解析 engrade.com,以我的身份登录,使用我的用户名和密码,然后解析以查找我的成绩?

有人可以举一个例子吗?尤其是登录。

谢谢,以利亚

0 投票
2 回答
325 浏览

xml - 用于数据剥离的 Excel 到 XML

我正在尝试从数千个相同的 Excel 2007/2010 文件中删除数据。我更喜欢使用抓取技术来做到这一点。是否可以抓取 Excel 文件,因为据我所知,该文件基本上是某种 XML 格式。

那么,是否可以将 Excel 文件转换为 XML 或其他一些标记格式?

0 投票
2 回答
14551 浏览

python - 使用 SoupStrainer 进行选择性解析

我试图解析来自购物网站的视频游戏标题列表。但是,由于项目列表都存储在标签内。

文档的这一部分应该解释了如何仅解析文档的一部分,但我无法解决。我的代码:

目前是打印任何具有非空标题引用的标签内的字符串。但它也将侧栏中的项目作为“特价”。如果我只能拿产品列表div,我会用一块石头杀死2只鸟。

非常感谢。

0 投票
2 回答
1444 浏览

.net - Http Agility Pack - 访问兄弟姐妹?

使用 HTML Agility Pack 非常适合获取后代和整个表等...但是在以下情况下如何使用它

你怎么能找到如果在这种情况下英里小于 15,我不明白你可以对元素做一些事情,但你是否必须让所有元素找到正确的元素,然后找到数字只是为了检查它的值?或者有没有办法使用正则表达式和敏捷包来以更好的方式实现这一点......

0 投票
1 回答
3022 浏览

database - 从数百个 Word 文档中抓取结构化信息?

我的任务是从数百个人类可读文档(主要是 MS Word)中提取一些结构化信息,并将其放入数据库中。数据几乎嵌入整个文档的表格中,但表格之间有很多文本,尽管文档在结构上非常相似,但还是有一些差异。文档经常更改(我们每隔几个月就会得到一个更新版本)

到目前为止,我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息,但我想我会在这里问是否有人认为可以以某种方式刮取文档?

哦,数据必须相当正确......

0 投票
1 回答
959 浏览

python - python抓取包指南

我还是 python 的新手,所以我希望这个问题不是空洞的。

我在谷歌上搜索网络抓取解决方案的次数越多,我就越困惑(尽管调查了许多树木,但看不到森林……)

我一直在阅读许多项目的文档,包括(但不限于)scrapy mechanize spynner

但我真的不知道我应该尝试使用哪个锤子..

我正在尝试抓取一个特定页面(www.schooldigger.com)它使用asp,并且我需要能够模拟一些java脚本。

我知道这类问题不容易处理,所以我希望得到任何指导。

除了对可用选项(以及不同项目之间的关系,如果可能的话)的一些一般性讨论之外,我还有几个具体问题

  1. 使用scrapy时,有什么方法可以避免定义要解析的“项目”,而只下载前几百页左右?我实际上并不想下载整个网站,但是,我希望能够在开发爬虫时查看正在下载哪些页面。

  2. mechanize、asp 和 javascript,请查看我发布但没有看到任何答案的问题, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. 为什么不构建某种实用程序(涡轮齿轮应用程序或浏览器插件)允许用户选择要遵循的链接和以图形方式解析的项目?我所建议的只是某种围绕解析 API 的 gui。我不知道我是否具备创建这样一个项目的技术知识,但我不明白为什么不可能,事实上,考虑到我对 python 的了解,这似乎相当可行。也许一些关于这类项目将面临什么问题的反馈?

  4. 最重要的是,所有网络爬虫都是“特定于站点”构建的吗?在我看来,我有点在我的代码中重新发明轮子..(但这可能是因为我不太擅长编程)

  5. 有人有功能齐全的刮刀的例子吗?文档中有很多示例(我一直在研究),但它们似乎都专注于简单性,只是为了说明包的使用,也许我会从更详细/更复杂的示例中受益。

谢谢你的想法。

0 投票
2 回答
642 浏览

post - 请帮助:我怎样才能抓取这个网页?

有一个网站提供搜索服务。你输入一个数字,搜索,它会返回结果。我想要做的是通过coldfusion以编程方式运行该搜索,而不必去该站点并手动搜索。

这是我想阅读/抓取的网页中的表单的样子(如查看页面源代码时所见):

我真正关心的唯一字段是 Num 输入字段。我想向该字段发布一个值,运行搜索,并在我的冷融合代码中获取结果。这是我到目前为止所拥有的:

但是当我转到页面时,转储只是说“ Connection Failure”。我究竟做错了什么?

0 投票
4 回答
1221 浏览

c# - 计算网站上 HTML 元素的面积?

我想弄清楚是否可以HTML element在网站上计算 a 的面积?以像素为单位,以百分比或其他形式。

我的第一个想法是假设元素的宽度和高度为 100%,然后尝试通过HTML and CSS.

因此,如果引用的 CSS 文件中有宽度/高度属性,我可能会说 body 元素被占据 25% 区域的列所覆盖(当然,一切都基于您的屏幕分辨率 - 我仍然试图弄清楚我如何能够以编程方式做到这一点)。

或者我是否应该渲染网站并根据当时最常见的屏幕分辨率的图像进行计算)。

还有更多可能的解决方案吗?

(目前我正在尝试在 Perl 中解决这个问题,但我想任何为此目的提供库的语言都将不胜感激!)


编辑:我需要检索页面上每个元素的可视区域。例如; 如果元素顶部有<body>元素,在视觉上覆盖它,我想从<body>'s 中排除该区域,依此类推。一个简单的光线追踪,用于查找页面上每个元素的可见区域。


编辑:假设我们排除 JavaScript - 任何其他可能的方法?