“scrape”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

184 浏览

php - 正则表达式问题获取玩家数量

我想从每个播放列表中抓取玩家的数量，只是没有逗号的值。

以上是我想要的带有“652”的列表项之一的结尾。

这是来自http://www.bungie.net/mobile/playlists.aspx的源代码，除非您使用手机模拟器或查看源代码，否则您无法查看它。

2011-02-07T07:41:10.330

0 投票

1 回答

1101 浏览

c# - C#.net System.Net.WebClient .. 服务器端与否？

我有一个 C#.net 网络表单，它以内容类型 JSON 格式执行简单的 response.write。它适用于我测试它的每个客户端 - 包括来自 Android 手机的 TinyWebDB API 调用.. 但不要担心这个问题的 API。

我在该 Web 表单中添加了一些服务器端代码来读取和抓取网页，如下所示。

我的印象是代码都是服务器端的！？

我测试了来自 IE、FF 和 Chrome 的页面.. 一切都很好。但是，如果我尝试从 TinyWebDB 调用 Web 表单页面，则调用效果很好，并且我可以取回数据，但是在服务器端读取网页时出现 404 错误？

这几乎就像 System.Net.WebClient 需要来自客户端的东西或正在客户端本身做一些事情。我认为页面的阅读都发生在服务器端和我的服务器的幕后。为什么我的服务器端代码会关心哪个浏览器或 API 发起了对网络表单的调用？

我应该使用另一个类吗？

非常感谢。

c#asp.net server-side scrape

2011-02-10T15:54:17.283

0 投票

4 回答

91 浏览

javascript - 正则表达式问题或者可能是另一种解决方案？

我遇到的问题是我已经成功地从网站源中抓取了一段 JavaScript，现在我必须筛选以获得我正在寻找的特定值。

我需要找到flvFileName并获取列出的所有文件名。在这种情况下，它是'trailer1,trailer2,trailer3'.

起初我开始使用正则表达式来匹配开始和结束标签，然后匹配文件名并将它们提取到一个数组中，但问题是列表中并不总是三个视频。可能有零个或多个，因此匹配不起作用。关于解决这个问题的任何想法不会让我继续滥用我的笔记本电脑？

javascript ruby regex scrape

2011-02-11T22:40:20.603

0 投票

1 回答

4889 浏览

hyperlink - HTMLUnit 按类名收集所有链接

我想在特定类名下抓取/收集页面上的所有链接

例如 HTML 农业 (92)

我一直在玩弄以下代码：

getByXPath 选项返回 null，另一个选项获取所有锚点。有没有办法将链接抓取到列表中？

hyperlink htmlunit scrape

2011-02-18T00:29:56.623

0 投票

1 回答

1628 浏览

flash - 从仅闪存站点刮取数据

我知道一点 javascript、HTML、CSS、VBA 和一般的编程结构（函数、循环等）

你会如何处理这个问题。体育博彩网站在其 Flash 网站上发布数字数据（赔率）。投注赔率变化非常频繁。

我需要得到这些数据。最好每秒抓取一次数据，将数据和时间戳放在文本文件中。

他们使用 RMTPS 协议将数据发送到我的浏览器。那么数据包监听是不可能的吗？我是n00b，所以请原谅我错了。

我知道像素抓取是可能的，但是要让它工作起来很痛苦。

我保存了网站。我将 swf 文件反向工程为 fla 文件。我想我有该网站的完整源代码。它相当大。幸运的是，代码非常具有描述性和可读性，但仍然非常庞大。

问题是，我怎样才能不通过像素抓取或数据包嗅探，而是通过侵入和“监听”数据流并捕获我想要的数据来获取数据？

我很确定没有像 getOddsGameID(223) 之类的功能。我认为投注赔率数据传输可能是由服务器发起的，而不是由脚本本身的某个定时函数发起的。所以我需要假装我是一个浏览器，并在原始数据进入 Flash 解释器之前获取它。

flash screen-scraping scrape

2011-02-22T15:13:27.943

0 投票

2 回答

906 浏览

javascript - 从 iframe 抓取父页面 html

我有一个 iframe，用于从其父页面生成 PDF。PDF 制作器 (ABCpdf) 需要一个 HTML 文件，然后将其转换。

我目前所做的是使用以下方法刮取父母的 HTML：

然后我使用 iframe 中的表单将其提交到服务器，在服务器上对其进行按摩以删除 iframe 部分之类的内容，然后将其保存为 PDF 制作者的临时 HTML 文件。

然而，生成的 HTML 代码被破坏了，<BODY>而不是<body>等，并且删除了 ID 周围的引号等。

有没有更好的方法来获取 HTML？

我不只是将页面重新生成为 HTML 的原因是父页面是一个复杂的报告。它包含各种控件以允许用户显示/隐藏部分或对表格中的行进行排序。所以我得到的 HTML 必须反映用户的自定义。

谢谢

javascript html scrape

2011-02-23T17:43:06.467

0 投票

1 回答

1486 浏览

php - 解析页面，获取输入字段的内容？

我想使用 PHP 打开一个页面，并从两个输入字段中获取两个值。

输入字段如下所示：

我怎么能这样做呢？

抓取此页面，并返回的值input "__ONE" as $one，依此类推...

php scrape

2011-03-03T05:49:48.207

0 投票

3 回答

449 浏览

php - php从html页面中提取信息

我有这个代码

我怎样才能将信息提取到一个数组中，所以我有这样的东西..

注意：一次页面上可能有 3 个以上的项目，或者可能只有 1 个

php html extract html-content-extraction scrape

2011-03-03T10:49:32.927

0 投票

3 回答

5312 浏览

php - Javascript生成的抓取网站

我认为这是一个真正的挑战！

我为我当地的足球联赛写了一个网站，www.rdyfl.co.uk，并包含来自 FA 的全职系统的 javascript 代码片段，我们在其中生成我们的固定装置，在表格中链接固定装置最近的结果等。

对于我想添加到站点的另一个功能，我需要为每个年龄组和部门抓取“即将到来的夹具”，但是当我检查源时，我有两个问题。

夹具内容是由 javascript 生成的，因此我需要查看生成的源代码而不仅仅是源代码。
当我使用 Firefox 查看生成的源代码时，团队名称实际上是进一步的 javascript 链接，而不是名称本身。

我基本上想以某种方式定期下载固定装置然后写入mysql数据库？

我已经问过足协，他们没有更多的选择可以访问数据？

以前从来没有为抓取编码过，谁能指出我一个简单的解决方案，或者有人喜欢这个挑战吗？

php javascript scrape

2011-03-05T21:25:42.747

0 投票

3 回答

195 浏览

php - 数千次获取这些数据的最有效方法是什么？

</b>使用 PHP 的DOMDocument->loadHTML()系统获取以下数据（标记后 4.0m）的最佳方法是什么？我猜是某种 CSS 样式选择器？

(LINE 240, always 240) <b>Current Price:</b> 4.0m

我一直在查看文档，但老实说，这对我来说完全陌生！此外，我如何能够从以下 URL 获取数千页的数据：

http://site.com/q=item/viewitem.php?obj=11928

最小/最大值是已知的obj=#（我需要抓取多少页），我想逐步抓取所有这些值，并输出name description（price目前还不太关心百分比上升/下降）到 MySQL 数据库，所以我可以从那里抓取它并将其显示在我的网站上。

这是我感兴趣的主要代码块：

如果有人可以提供有关如何进行此操作的任何骨架提示，将不胜感激！

php html curl html-parsing scrape

2011-03-14T23:53:27.097

问题标签 [scrape]

Reference