问题标签 [scrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1129 浏览

php - PHP:如何从网站源页面中提取内容或抓取数据集

我想知道如何使用 php 从网站上抓取源代码的内容。我尝试使用http://simplehtmldom.sourceforge.net/并查看了如何在 PHP 中解析和处理 HTML/XML?我仍然很难从源代码中获取信息。如您所见,源代码的主页包含作者链接列表,其中包括年份和着书数量。

我点击 john smith,它会打开 john smith 写的书籍列表。

我点击其中一本书“最好的书”,它会显示书名和作者以及这本书的整个故事。

我希望能够获取所有作者姓名和他们的年份、书籍列表以及书籍的内容。实际上作为数据集。有人可以帮助我或向我展示 php 的代码示例来实现这一点。我想创建一个包含所有作者姓名、他们的生活年份、他们创建的书籍、书名、类别、书籍内容等信息的数据库

0 投票
4 回答
356 浏览

python - 从 HTML 中提取数据

我正在尝试抓取一个网站。我已经能够将网站上的内容转换为字符串/文件。

现在,我想搜索具有以下内容的特定行:

保证只有一个 Key 1: 在网站中,我需要获得 Value 1。最好的方法是什么。如果它通过正则表达式,你能帮我看看它的外观吗?我没有太多使用正则表达式。

问候, AMM

0 投票
3 回答
1409 浏览

php - PHP 抓取 HTML 之间
标签

我无法找出如何仅从内部抓取 HTML 内容

有 PHP5 的标签。

我想以下面的文档为例,将 2 个(或更多的 pre 标签区域,它的动态)放入一个数组中。

我如何将另一台服务器上的 html 文件的 pre 标记之间的区域推入数组中。

0 投票
1 回答
855 浏览

image - 为什么 Facebook Likes 坚持使用错误的产品图片...?

我的网站http://www.joaniesgifts.c​​o.uk包括产品页面上的点赞按钮。但是,我发现当用户喜欢页面时,某些产品页面使用了不正确的图像。此页面是一个示例。

我认为这可能是由于最初的不正确设置,现在已更正。然而,问题依旧……

我唯一需要做的是,如果我在上述产品页面上使用 Facebook URL linter,我会收到以下错误。

URL 'http://www.joaniesgifts.c​​o.uk/terramundi-money-pot-holiday-fund' 类型为 '213689662010141:product' 的对象无效,因为不允许使用域 'www.joaniesgifts.c​​o.uk'对于拥有指定对象类型的应用程序 ID '213689662010141'。如果您是此应用程序的所有者,您可以在 developers.facebook.com/apps/213689662010141 验证您配置的“站点域”。(我已经验证了我网站的域名)

其他一切看起来都很好,只是它也显示了错误的图像!但是,在 Raw Open Graph Document Information 下,它具有正确的链接!

如果我然后单击Graph API - http://graph.facebook.com/10150450766583352 - 它再次显示链接错误的图像!

我还能做什么?

另外:Graph API 在几分钟前的一次刮擦后显示了不正确的图像。

0 投票
1 回答
87 浏览

php - 你如何删除我从网站上抓取的明文中的一部分?

这是我用来抓取名称和网址的代码,但每个名称都以~. 我想删除~部分。我尝试过使用str_replace,但从外观上看似乎不对。(也对其进行了测试,结果相同)

当前结果示例:

0 投票
2 回答
687 浏览

php - php怎么刮里面
  • 使用simplehtmldom?
  • 0 投票
    2 回答
    8739 浏览

    c# - 从c#中的网页刮取表格

    构建一个函数以将网页上的 html 表格抓取到变量中的最佳方法是什么。

    我希望能够向它传递一些唯一标识符(如表 ID 或其他东西),它将所有数据返回到类似 DataTable 的东西中。

    0 投票
    1 回答
    1234 浏览

    php - php 在尝试获取 url 网页抓取的下一页时从 simplehtmldom 获取错误

    我正在尝试获取该主题的下一页,但它给出了错误。有什么方法可以避免该错误,以便能够在该年龄主题中抓取下一页?(下一页是 20 和之后是 40 等等)下面给出了错误,我确定有人会要求我发布代码,但不确定我应该发布多少或什么代码。

    http://blah.com/quotes/topic/age 20 1 1http://blah.com/quotes/topic/age/20

    更新***

    这是870-885之间的线

    0 投票
    2 回答
    1251 浏览

    c# - 如何使用 WatIn 抓取页面上的超链接?

    我正在尝试使用 WatIn 收集超链接列表(它链接到的 url)。我尝试使用:

    我正在尝试列出我的richtextbox 中的所有超链接,但是上面返回了超链接名称,因此它一遍又一遍地显示“链接”。

    此外,我只需要列出包含“webpage.php?id=”的网址/链接,然后在此之后有一个唯一的编号。如何返回仅由包含“webpage.php?id=”的抓取的 url 过滤?

    更新:这是一个更新的测试,可以使用其他站点,但不是我需要的站点。下面的代码有效。

    }

    该代码似乎是正确的,但是它与我的特定网址和超链接的交互似乎是问题所在。我所关注的网站和超链接包含敏感信息,因此省略了它们。

    使用我的网站主页http://website.com脚本运行,所以它有关于我将其发送到http://website.com/data.php?search=%22%22&cat的唯一页面的问题=0 可能是因为网址中的 .php 吗?如果有帮助,URL 也会存储在页面上,如下所示。

    更新和解决方案:由于某种原因,当我尝试使用 Url.Contains 方法时似乎会出现问题。我最终所做的是将每个抓取的 Url 存储到一个列表中,并根据需要逐行测试我的列表以返回所需的 Url。非常感谢你的帮助。

    0 投票
    2 回答
    435 浏览

    python - Scrapy SgmlLinkExtractor 添加任意 URL

    如何将 url 添加到 SgmlLinkExtractor?也就是说,如何添加任意 url 来运行回调?

    详细说明,以dirbot为例:https ://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py

    parse_category仅访问与 SgmlLinkExtractor 匹配的所有内容 SgmlLinkExtractor(allow='directory.google.com/[AZ][a-zA-Z_/]+$')