问题标签 [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
184 浏览

php - 正则表达式问题获取玩家数量

我想从每个播放列表中抓取玩家的数量,只是没有逗号的值。

以上是我想要的带有“652”的列表项之一的结尾。

这是来自http://www.bungie.net/mobile/playlists.aspx的源代码,除非您使用手机模拟器或查看源代码,否则您无法查看它。

0 投票
1 回答
1101 浏览

c# - C#.net System.Net.WebClient .. 服务器端与否?

我有一个 C#.net 网络表单,它以内容类型 JSON 格式执行简单的 response.write。它适用于我测试它的每个客户端 - 包括来自 Android 手机的 TinyWebDB API 调用.. 但不要担心这个问题的 API。

我在该 Web 表单中添加了一些服务器端代码来读取和抓取网页,如下所示。

我的印象是代码都是服务器端的!?

我测试了来自 IE、FF 和 Chrome 的页面.. 一切都很好。但是,如果我尝试从 TinyWebDB 调用 Web 表单页面,则调用效果很好,并且我可以取回数据,但是在服务器端读取网页时出现 404 错误?

这几乎就像 System.Net.WebClient 需要来自客户端的东西或正在客户端本身做一些事情。我认为页面的阅读都发生在服务器端和我的服务器的幕后。为什么我的服务器端代码会关心哪个浏览器或 API 发起了对网络表单的调用?

我应该使用另一个类吗?

非常感谢。

0 投票
4 回答
91 浏览

javascript - 正则表达式问题或者可能是另一种解决方案?

我遇到的问题是我已经成功地从网站源中抓取了一段 JavaScript,现在我必须筛选以获得我正在寻找的特定值。

我需要找到flvFileName并获取列出的所有文件名。在这种情况下,它是'trailer1,trailer2,trailer3'.

起初我开始使用正则表达式来匹配开始和结束标签,然后匹配文件名并将它们提取到一个数组中,但问题是列表中并不总是三个视频。可能有零个或多个,因此匹配不起作用。关于解决这个问题的任何想法不会让我继续滥用我的笔记本电脑?

0 投票
1 回答
4889 浏览

hyperlink - HTMLUnit 按类名收集所有链接

我想在特定类名下抓取/收集页面上的所有链接

例如 HTML 农业 (92)

我一直在玩弄以下代码:

getByXPath 选项返回 null,另一个选项获取所有锚点。有没有办法将链接抓取到列表中?

0 投票
1 回答
1628 浏览

flash - 从仅闪存站点刮取数据

我知道一点 javascript、HTML、CSS、VBA 和一般的编程结构(函数、循环等)

你会如何处理这个问题。体育博彩网站在其 Flash 网站上发布数字数据(赔率)。投注赔率变化非常频繁。

我需要得到这些数据。最好每秒抓取一次数据,将数据和时间戳放在文本文件中。

他们使用 RMTPS 协议将数据发送到我的浏览器。那么数据包监听是不可能的吗?我是n00b,所以请原谅我错了。

我知道像素抓取是可能的,但是要让它工作起来很痛苦。

我保存了网站。我将 swf 文件反向工程为 fla 文件。我想我有该网站的完整源代码。它相当大。幸运的是,代码非常具有描述性和可读性,但仍然非常庞大。

问题是,我怎样才能不通过像素抓取或数据包嗅探,而是通过侵入和“监听”数据流并捕获我想要的数据来获取数据?

我很确定没有像 getOddsGameID(223) 之类的功能。我认为投注赔率数据传输可能是由服务器发起的,而不是由脚本本身的某个定时函数发起的。所以我需要假装我是一个浏览器,并在原始数据进入 Flash 解释器之前获取它。

0 投票
2 回答
906 浏览

javascript - 从 iframe 抓取父页面 html

我有一个 iframe,用于从其父页面生成 PDF。PDF 制作器 (ABCpdf) 需要一个 HTML 文件,然后将其转换。

我目前所做的是使用以下方法刮取父母的 HTML:

然后我使用 iframe 中的表单将其提交到服务器,在服务器上对其进行按摩以删除 iframe 部分之类的内容,然后将其保存为 PDF 制作者的临时 HTML 文件。

然而,生成的 HTML 代码被破坏了,<BODY>而不是<body>等,并且删除了 ID 周围的引号等。

有没有更好的方法来获取 HTML?

我不只是将页面重新生成为 HTML 的原因是父页面是一个复杂的报告。它包含各种控件以允许用户显示/隐藏部分或对表格中的行进行排序。所以我得到的 HTML 必须反映用户的自定义。

谢谢

0 投票
1 回答
1486 浏览

php - 解析页面,获取输入字段的内容?

我想使用 PHP 打开一个页面,并从两个输入字段中获取两个值。

输入字段如下所示:

我怎么能这样做呢?

抓取此页面,并返回 的值input "__ONE" as $one,依此类推...

0 投票
3 回答
449 浏览

php - php从html页面中提取信息

我有这个代码

我怎样才能将信息提取到一个数组中,所以我有这样的东西..

注意:一次页面上可能有 3 个以上的项目,或者可能只有 1 个

0 投票
3 回答
5312 浏览

php - Javascript生成的抓取网站

我认为这是一个真正的挑战!

我为我当地的足球联赛写了一个网站,www.rdyfl.co.uk,并包含来自 FA 的全职系统的 javascript 代码片段,我们在其中生成我们的固定装置,在表格中链接固定装置最近的结果等。

对于我想添加到站点的另一个功能,我需要为每个年龄组和部门抓取“即将到来的夹具”,但是当我检查源时,我有两个问题。

  1. 夹具内容是由 javascript 生成的,因此我需要查看生成的源代码而不仅仅是源代码。

  2. 当我使用 Firefox 查看生成的源代码时,团队名称实际上是进一步的 javascript 链接,而不是名称本身。

我基本上想以某种方式定期下载固定装置然后写入mysql数据库?

我已经问过足协,他们没有更多的选择可以访问数据?

以前从来没有为抓取编码过,谁能指出我一个简单的解决方案,或者有人喜欢这个挑战吗?

0 投票
3 回答
195 浏览

php - 数千次获取这些数据的最有效方法是什么?

</b>使用 PHP 的DOMDocument->loadHTML()系统获取以下数据(标记后 4.0m)的最佳方法是什么?我猜是某种 CSS 样式选择器?

(LINE 240, always 240) <b>Current Price:</b> 4.0m

我一直在查看文档,但老实说,这对我来说完全陌生!此外,我如何能够从以下 URL 获取数千页的数据:

http://site.com/q=item/viewitem.php?obj=11928

最小/最大值是已知的obj=#(我需要抓取多少页),我想逐步抓取所有这些值,并输出name descriptionprice目前还不太关心百分比上升/下降)到 MySQL 数据库,所以我可以从那里抓取它并将其显示在我的网站上。

这是我感兴趣的主要代码块:

如果有人可以提供有关如何进行此操作的任何骨架提示,将不胜感激!