问题标签 [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP:如何从网站源页面中提取内容或抓取数据集
我想知道如何使用 php 从网站上抓取源代码的内容。我尝试使用http://simplehtmldom.sourceforge.net/并查看了如何在 PHP 中解析和处理 HTML/XML?我仍然很难从源代码中获取信息。如您所见,源代码的主页包含作者链接列表,其中包括年份和着书数量。
我点击 john smith,它会打开 john smith 写的书籍列表。
我点击其中一本书“最好的书”,它会显示书名和作者以及这本书的整个故事。
我希望能够获取所有作者姓名和他们的年份、书籍列表以及书籍的内容。实际上作为数据集。有人可以帮助我或向我展示 php 的代码示例来实现这一点。我想创建一个包含所有作者姓名、他们的生活年份、他们创建的书籍、书名、类别、书籍内容等信息的数据库
python - 从 HTML 中提取数据
我正在尝试抓取一个网站。我已经能够将网站上的内容转换为字符串/文件。
现在,我想搜索具有以下内容的特定行:
保证只有一个 Key 1: 在网站中,我需要获得 Value 1。最好的方法是什么。如果它通过正则表达式,你能帮我看看它的外观吗?我没有太多使用正则表达式。
问候, AMM
php - PHP 抓取 HTML 之间标签
我无法找出如何仅从内部抓取 HTML 内容
有 PHP5 的标签。我想以下面的文档为例,将 2 个(或更多的 pre 标签区域,它的动态)放入一个数组中。
我如何将另一台服务器上的 html 文件的 pre 标记之间的区域推入数组中。
image - 为什么 Facebook Likes 坚持使用错误的产品图片...?
我的网站http://www.joaniesgifts.co.uk包括产品页面上的点赞按钮。但是,我发现当用户喜欢页面时,某些产品页面使用了不正确的图像。此页面是一个示例。
我认为这可能是由于最初的不正确设置,现在已更正。然而,问题依旧……
我唯一需要做的是,如果我在上述产品页面上使用 Facebook URL linter,我会收到以下错误。
URL 'http://www.joaniesgifts.co.uk/terramundi-money-pot-holiday-fund' 类型为 '213689662010141:product' 的对象无效,因为不允许使用域 'www.joaniesgifts.co.uk'对于拥有指定对象类型的应用程序 ID '213689662010141'。如果您是此应用程序的所有者,您可以在 developers.facebook.com/apps/213689662010141 验证您配置的“站点域”。(我已经验证了我网站的域名)
其他一切看起来都很好,只是它也显示了错误的图像!但是,在 Raw Open Graph Document Information 下,它具有正确的链接!
如果我然后单击Graph API - http://graph.facebook.com/10150450766583352 - 它再次显示链接错误的图像!
我还能做什么?
另外:Graph API 在几分钟前的一次刮擦后显示了不正确的图像。
php - 你如何删除我从网站上抓取的明文中的一部分?
这是我用来抓取名称和网址的代码,但每个名称都以~
. 我想删除~
部分。我尝试过使用str_replace
,但从外观上看似乎不对。(也对其进行了测试,结果相同)
当前结果示例:
c# - 从c#中的网页刮取表格
构建一个函数以将网页上的 html 表格抓取到变量中的最佳方法是什么。
我希望能够向它传递一些唯一标识符(如表 ID 或其他东西),它将所有数据返回到类似 DataTable 的东西中。
php - php 在尝试获取 url 网页抓取的下一页时从 simplehtmldom 获取错误
我正在尝试获取该主题的下一页,但它给出了错误。有什么方法可以避免该错误,以便能够在该年龄主题中抓取下一页?(下一页是 20 和之后是 40 等等)下面给出了错误,我确定有人会要求我发布代码,但不确定我应该发布多少或什么代码。
http://blah.com/quotes/topic/age 20 1 1http://blah.com/quotes/topic/age/20
更新***
这是870-885之间的线
c# - 如何使用 WatIn 抓取页面上的超链接?
我正在尝试使用 WatIn 收集超链接列表(它链接到的 url)。我尝试使用:
我正在尝试列出我的richtextbox 中的所有超链接,但是上面返回了超链接名称,因此它一遍又一遍地显示“链接”。
此外,我只需要列出包含“webpage.php?id=”的网址/链接,然后在此之后有一个唯一的编号。如何返回仅由包含“webpage.php?id=”的抓取的 url 过滤?
更新:这是一个更新的测试,可以使用其他站点,但不是我需要的站点。下面的代码有效。
}
该代码似乎是正确的,但是它与我的特定网址和超链接的交互似乎是问题所在。我所关注的网站和超链接包含敏感信息,因此省略了它们。
使用我的网站主页http://website.com脚本运行,所以它有关于我将其发送到http://website.com/data.php?search=%22%22&cat的唯一页面的问题=0 可能是因为网址中的 .php 吗?如果有帮助,URL 也会存储在页面上,如下所示。
更新和解决方案:由于某种原因,当我尝试使用 Url.Contains 方法时似乎会出现问题。我最终所做的是将每个抓取的 Url 存储到一个列表中,并根据需要逐行测试我的列表以返回所需的 Url。非常感谢你的帮助。
python - Scrapy SgmlLinkExtractor 添加任意 URL
如何将 url 添加到 SgmlLinkExtractor?也就是说,如何添加任意 url 来运行回调?
详细说明,以dirbot为例:https ://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py
parse_category仅访问与 SgmlLinkExtractor 匹配的所有内容 SgmlLinkExtractor(allow='directory.google.com/[AZ][a-zA-Z_/]+$')