问题标签 [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2451 浏览

php - PHP Filename 不能为空如何在简单的 html dom line 70 中绕过它

当我在抓取一个网站时,我能够在 10000 个内容中达到 4000 个,它会停下来说

PHP 警告:file_get_contents():第 70 行的 /Users...simple_html_dom.php 中的文件名不能为空 PHP 致命错误:在非对象上调用成员函数 find()

在 simple_html_dom.php 的第 70 行

我想知道如何绕过空文件名并继续完成该过程?

0 投票
2 回答
1280 浏览

php - PHP - 从数据库传递 URL 时文件获取内容不起作用,否则工作正常

我正在尝试使用 file_get_contents 获取网页的内容

场景一:
当我直接从文本字段传递单个 URL 时,它工作得很好。

场景二:
当我在一个文本区域中获取多个 URL,然后将它们存储在 Mysql 数据库中。然后我运行一个 for 循环将 URL 传递给与场景 1 中相同的代码片段,它返回此错误

我觉得问题在于正在使用的数据类型。所以最初是 varchar 我将其更改为文本。

我也试过剥离空间。当我回显 URL 时,它会按原样打印它,没有额外的字符或空格。

此外,由于它处于循环中,我认为问题不在于一次传递多个 URL。通过方案 1 尝试时,所有 URL 都可以单独正常工作。

请帮忙。我已经黔驴技穷了。

0 投票
2 回答
5479 浏览

php - 如何通过需要 POST 数据的 PHP 抓取网站?

我正在尝试抓取一个接收 POST 数据以返回正确页面的网站(没有 POST,它返回 15 个结果,POST 数据返回所有结果)。

目前我的代码是这样的:

我知道我需要将我的 postfields 放入充满“XXXXXX”的空间中,我只是不知道在哪里挖掘 post 字段/值以及如何将它们构造成我传递到那里的变量。

任何帮助将不胜感激!

0 投票
1 回答
1031 浏览

c# - 使用 LINQ 将 HTML 表抓取为矩形数组

我想将每列的列标题和数据行刮成一个二维数组。数据如下所示:

我正在寻找的结果将是一个二维数组,如下所示:

  • 战斗机 MiG-29
  • 战斗机 F-15
  • 战斗机 F-86
  • 轰炸机 B-52
  • 轰炸机 B-1B

我正在使用 C# 并且更喜欢使用 LINQ,但在这一点上我会接受任何建议。

0 投票
2 回答
432 浏览

php - 获取 .swf URI 的 HTML 源代码

我想知道是否可以从 .swf URI 中获取 HTML 源代码?

例如一个网页,例如:

http://media.flixfacts.com/360view/acer_uk/002/acer_uk-002-en.swf

当我使用 curl 抓取此页面时,它会带回 swf 源而不是 html 源。

有任何想法吗?

0 投票
2 回答
245 浏览

image - 如何抓取没有扩展名的图像?

有时我会遇到无法抓取的图像,以便将其保存。这方面的一个例子是:

https://s3.amazonaws.com/plumdistrict.com-production/perks/12321/image/original.?1325898487

当我从 Internet Explorer 中点击 url 时,我看到了图像,但是当我尝试从下面的代码中获取它时,我收到以下错误消息“System.Net.WebException The remote server returned an error: (403) Forbidden”错误与 GetResponse :

关于如何获取此图像的任何想法?

编辑:

我能够保存具有扩展名的图像。例如,我可以很好地抓取以下图像:

https://s3.amazonaws.com/plumdistrict.com-production/perks/12659/image/original.jpg?1326828951

0 投票
1 回答
2354 浏览

c# - C# 我可以为链接抓取 webBrowser 控件吗?

到目前为止,我正在学习 C# 和它的乐趣,但我遇到了障碍。

我有一个程序可以在 Web 浏览器控件中抓取网页以获取信息。

到目前为止,我可以获得 HTML

和文字

我试图抓取和显示这样的链接

但是,表单上的富文本框填充了这个

您知道如何从当前网页获取链接列表以显示在文本框中吗?

谢谢克里斯。

0 投票
2 回答
2425 浏览

facebook - 我网站的“喜欢”按钮未使用正确的信息

我正在使用博客为我的团队正在进行的筹款活动设计一个博客。我通过godaddy“solematesforlife.org”购买了一个域名,我的目标是我的博客“solemateswalk.blogspot.com”。

当我第一次安装赞按钮时,我没有意识到我需要指定在 facebook 上使用的资源。当我意识到我做了什么时,我在我的标题中安装了适当的元标记,并尝试使用调试工具重新抓取博客。

我遇到的问题是,当我通过调试运行我的 URL 时,它会选择新的“图像、url、描述和标题”,但不会费心更新当人们点击我的喜欢按钮时它使用的“对象属性” .

这是一个大问题,因为如果不替换新图像并添加描述,我宁愿将类似链接一起删除..

我已经阅读和阅读了这个主题,并且认为我对它应该如何工作有一个很好的掌握,但是我不能声称我是一个 java 程序员。

提前致谢

0 投票
3 回答
94366 浏览

java - 用 JAVA 解析网站 HTML

我想解析一个简单的网站并从该网站上抓取信息。

我曾经用 DocumentBuilderFactory 解析 XML 文件,我尝试对 html 文件做同样的事情,但它总是陷入无限循环。

有什么问题?或者有没有更简单的方法从网站上为给定的 html 标签抓取数据?

0 投票
2 回答
27206 浏览

bash - 检查网页是否已更新的简单脚本

我在一个网站上等待一些信息。我不想每小时检查一次。我想要一个脚本,它会为我执行此操作,并在此网站已使用我正在寻找的关键字更新时通知我。