问题标签 [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 正则表达式问题获取玩家数量
我想从每个播放列表中抓取玩家的数量,只是没有逗号的值。
以上是我想要的带有“652”的列表项之一的结尾。
这是来自http://www.bungie.net/mobile/playlists.aspx的源代码,除非您使用手机模拟器或查看源代码,否则您无法查看它。
c# - C#.net System.Net.WebClient .. 服务器端与否?
我有一个 C#.net 网络表单,它以内容类型 JSON 格式执行简单的 response.write。它适用于我测试它的每个客户端 - 包括来自 Android 手机的 TinyWebDB API 调用.. 但不要担心这个问题的 API。
我在该 Web 表单中添加了一些服务器端代码来读取和抓取网页,如下所示。
我的印象是代码都是服务器端的!?
我测试了来自 IE、FF 和 Chrome 的页面.. 一切都很好。但是,如果我尝试从 TinyWebDB 调用 Web 表单页面,则调用效果很好,并且我可以取回数据,但是在服务器端读取网页时出现 404 错误?
这几乎就像 System.Net.WebClient 需要来自客户端的东西或正在客户端本身做一些事情。我认为页面的阅读都发生在服务器端和我的服务器的幕后。为什么我的服务器端代码会关心哪个浏览器或 API 发起了对网络表单的调用?
我应该使用另一个类吗?
非常感谢。
javascript - 正则表达式问题或者可能是另一种解决方案?
我遇到的问题是我已经成功地从网站源中抓取了一段 JavaScript,现在我必须筛选以获得我正在寻找的特定值。
我需要找到flvFileName
并获取列出的所有文件名。在这种情况下,它是'trailer1,trailer2,trailer3'
.
起初我开始使用正则表达式来匹配开始和结束标签,然后匹配文件名并将它们提取到一个数组中,但问题是列表中并不总是三个视频。可能有零个或多个,因此匹配不起作用。关于解决这个问题的任何想法不会让我继续滥用我的笔记本电脑?
hyperlink - HTMLUnit 按类名收集所有链接
我想在特定类名下抓取/收集页面上的所有链接
例如 HTML 农业 (92)
我一直在玩弄以下代码:
getByXPath 选项返回 null,另一个选项获取所有锚点。有没有办法将链接抓取到列表中?
flash - 从仅闪存站点刮取数据
我知道一点 javascript、HTML、CSS、VBA 和一般的编程结构(函数、循环等)
你会如何处理这个问题。体育博彩网站在其 Flash 网站上发布数字数据(赔率)。投注赔率变化非常频繁。
我需要得到这些数据。最好每秒抓取一次数据,将数据和时间戳放在文本文件中。
他们使用 RMTPS 协议将数据发送到我的浏览器。那么数据包监听是不可能的吗?我是n00b,所以请原谅我错了。
我知道像素抓取是可能的,但是要让它工作起来很痛苦。
我保存了网站。我将 swf 文件反向工程为 fla 文件。我想我有该网站的完整源代码。它相当大。幸运的是,代码非常具有描述性和可读性,但仍然非常庞大。
问题是,我怎样才能不通过像素抓取或数据包嗅探,而是通过侵入和“监听”数据流并捕获我想要的数据来获取数据?
我很确定没有像 getOddsGameID(223) 之类的功能。我认为投注赔率数据传输可能是由服务器发起的,而不是由脚本本身的某个定时函数发起的。所以我需要假装我是一个浏览器,并在原始数据进入 Flash 解释器之前获取它。
javascript - 从 iframe 抓取父页面 html
我有一个 iframe,用于从其父页面生成 PDF。PDF 制作器 (ABCpdf) 需要一个 HTML 文件,然后将其转换。
我目前所做的是使用以下方法刮取父母的 HTML:
然后我使用 iframe 中的表单将其提交到服务器,在服务器上对其进行按摩以删除 iframe 部分之类的内容,然后将其保存为 PDF 制作者的临时 HTML 文件。
然而,生成的 HTML 代码被破坏了,<BODY>
而不是<body>
等,并且删除了 ID 周围的引号等。
有没有更好的方法来获取 HTML?
我不只是将页面重新生成为 HTML 的原因是父页面是一个复杂的报告。它包含各种控件以允许用户显示/隐藏部分或对表格中的行进行排序。所以我得到的 HTML 必须反映用户的自定义。
谢谢
php - 解析页面,获取输入字段的内容?
我想使用 PHP 打开一个页面,并从两个输入字段中获取两个值。
输入字段如下所示:
我怎么能这样做呢?
抓取此页面,并返回 的值input "__ONE" as $one
,依此类推...
php - php从html页面中提取信息
我有这个代码
我怎样才能将信息提取到一个数组中,所以我有这样的东西..
注意:一次页面上可能有 3 个以上的项目,或者可能只有 1 个
php - Javascript生成的抓取网站
我认为这是一个真正的挑战!
我为我当地的足球联赛写了一个网站,www.rdyfl.co.uk,并包含来自 FA 的全职系统的 javascript 代码片段,我们在其中生成我们的固定装置,在表格中链接固定装置最近的结果等。
对于我想添加到站点的另一个功能,我需要为每个年龄组和部门抓取“即将到来的夹具”,但是当我检查源时,我有两个问题。
夹具内容是由 javascript 生成的,因此我需要查看生成的源代码而不仅仅是源代码。
当我使用 Firefox 查看生成的源代码时,团队名称实际上是进一步的 javascript 链接,而不是名称本身。
我基本上想以某种方式定期下载固定装置然后写入mysql数据库?
我已经问过足协,他们没有更多的选择可以访问数据?
以前从来没有为抓取编码过,谁能指出我一个简单的解决方案,或者有人喜欢这个挑战吗?
php - 数千次获取这些数据的最有效方法是什么?
</b>
使用 PHP 的DOMDocument->loadHTML()系统获取以下数据(标记后 4.0m)的最佳方法是什么?我猜是某种 CSS 样式选择器?
(LINE 240, always 240) <b>Current Price:</b> 4.0m
我一直在查看文档,但老实说,这对我来说完全陌生!此外,我如何能够从以下 URL 获取数千页的数据:
http://site.com/q=item/viewitem.php?obj=11928
最小/最大值是已知的obj=#
(我需要抓取多少页),我想逐步抓取所有这些值,并输出name
description
(price
目前还不太关心百分比上升/下降)到 MySQL 数据库,所以我可以从那里抓取它并将其显示在我的网站上。
这是我感兴趣的主要代码块:
如果有人可以提供有关如何进行此操作的任何骨架提示,将不胜感激!