问题标签 [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP Filename 不能为空如何在简单的 html dom line 70 中绕过它
当我在抓取一个网站时,我能够在 10000 个内容中达到 4000 个,它会停下来说
PHP 警告:file_get_contents():第 70 行的 /Users...simple_html_dom.php 中的文件名不能为空 PHP 致命错误:在非对象上调用成员函数 find()
在 simple_html_dom.php 的第 70 行
我想知道如何绕过空文件名并继续完成该过程?
php - PHP - 从数据库传递 URL 时文件获取内容不起作用,否则工作正常
我正在尝试使用 file_get_contents 获取网页的内容
场景一:
当我直接从文本字段传递单个 URL 时,它工作得很好。
场景二:
当我在一个文本区域中获取多个 URL,然后将它们存储在 Mysql 数据库中。然后我运行一个 for 循环将 URL 传递给与场景 1 中相同的代码片段,它返回此错误
我觉得问题在于正在使用的数据类型。所以最初是 varchar 我将其更改为文本。
我也试过剥离空间。当我回显 URL 时,它会按原样打印它,没有额外的字符或空格。
此外,由于它处于循环中,我认为问题不在于一次传递多个 URL。通过方案 1 尝试时,所有 URL 都可以单独正常工作。
请帮忙。我已经黔驴技穷了。
php - 如何通过需要 POST 数据的 PHP 抓取网站?
我正在尝试抓取一个接收 POST 数据以返回正确页面的网站(没有 POST,它返回 15 个结果,POST 数据返回所有结果)。
目前我的代码是这样的:
我知道我需要将我的 postfields 放入充满“XXXXXX”的空间中,我只是不知道在哪里挖掘 post 字段/值以及如何将它们构造成我传递到那里的变量。
任何帮助将不胜感激!
c# - 使用 LINQ 将 HTML 表抓取为矩形数组
我想将每列的列标题和数据行刮成一个二维数组。数据如下所示:
我正在寻找的结果将是一个二维数组,如下所示:
- 战斗机 MiG-29
- 战斗机 F-15
- 战斗机 F-86
- 轰炸机 B-52
- 轰炸机 B-1B
我正在使用 C# 并且更喜欢使用 LINQ,但在这一点上我会接受任何建议。
php - 获取 .swf URI 的 HTML 源代码
我想知道是否可以从 .swf URI 中获取 HTML 源代码?
例如一个网页,例如:
http://media.flixfacts.com/360view/acer_uk/002/acer_uk-002-en.swf
当我使用 curl 抓取此页面时,它会带回 swf 源而不是 html 源。
有任何想法吗?
image - 如何抓取没有扩展名的图像?
有时我会遇到无法抓取的图像,以便将其保存。这方面的一个例子是:
https://s3.amazonaws.com/plumdistrict.com-production/perks/12321/image/original.?1325898487
当我从 Internet Explorer 中点击 url 时,我看到了图像,但是当我尝试从下面的代码中获取它时,我收到以下错误消息“System.Net.WebException The remote server returned an error: (403) Forbidden”错误与 GetResponse :
关于如何获取此图像的任何想法?
编辑:
我能够保存具有扩展名的图像。例如,我可以很好地抓取以下图像:
https://s3.amazonaws.com/plumdistrict.com-production/perks/12659/image/original.jpg?1326828951
c# - C# 我可以为链接抓取 webBrowser 控件吗?
到目前为止,我正在学习 C# 和它的乐趣,但我遇到了障碍。
我有一个程序可以在 Web 浏览器控件中抓取网页以获取信息。
到目前为止,我可以获得 HTML
和文字
我试图抓取和显示这样的链接
但是,表单上的富文本框填充了这个
您知道如何从当前网页获取链接列表以显示在文本框中吗?
谢谢克里斯。
facebook - 我网站的“喜欢”按钮未使用正确的信息
我正在使用博客为我的团队正在进行的筹款活动设计一个博客。我通过godaddy“solematesforlife.org”购买了一个域名,我的目标是我的博客“solemateswalk.blogspot.com”。
当我第一次安装赞按钮时,我没有意识到我需要指定在 facebook 上使用的资源。当我意识到我做了什么时,我在我的标题中安装了适当的元标记,并尝试使用调试工具重新抓取博客。
我遇到的问题是,当我通过调试运行我的 URL 时,它会选择新的“图像、url、描述和标题”,但不会费心更新当人们点击我的喜欢按钮时它使用的“对象属性” .
这是一个大问题,因为如果不替换新图像并添加描述,我宁愿将类似链接一起删除..
我已经阅读和阅读了这个主题,并且认为我对它应该如何工作有一个很好的掌握,但是我不能声称我是一个 java 程序员。
提前致谢
java - 用 JAVA 解析网站 HTML
我想解析一个简单的网站并从该网站上抓取信息。
我曾经用 DocumentBuilderFactory 解析 XML 文件,我尝试对 html 文件做同样的事情,但它总是陷入无限循环。
有什么问题?或者有没有更简单的方法从网站上为给定的 html 标签抓取数据?
bash - 检查网页是否已更新的简单脚本
我在一个网站上等待一些信息。我不想每小时检查一次。我想要一个脚本,它会为我执行此操作,并在此网站已使用我正在寻找的关键字更新时通知我。