“scrape”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1129 浏览

php - PHP：如何从网站源页面中提取内容或抓取数据集

我想知道如何使用 php 从网站上抓取源代码的内容。我尝试使用http://simplehtmldom.sourceforge.net/并查看了如何在 PHP 中解析和处理 HTML/XML？我仍然很难从源代码中获取信息。如您所见，源代码的主页包含作者链接列表，其中包括年份和着书数量。

我点击 john smith，它会打开 john smith 写的书籍列表。

我点击其中一本书“最好的书”，它会显示书名和作者以及这本书的整个故事。

我希望能够获取所有作者姓名和他们的年份、书籍列表以及书籍的内容。实际上作为数据集。有人可以帮助我或向我展示 php 的代码示例来实现这一点。我想创建一个包含所有作者姓名、他们的生活年份、他们创建的书籍、书名、类别、书籍内容等信息的数据库

2011-10-25T04:13:18.577

0 投票

4 回答

356 浏览

python - 从 HTML 中提取数据

我正在尝试抓取一个网站。我已经能够将网站上的内容转换为字符串/文件。

现在，我想搜索具有以下内容的特定行：

保证只有一个 Key 1: 在网站中，我需要获得 Value 1。最好的方法是什么。如果它通过正则表达式，你能帮我看看它的外观吗？我没有太多使用正则表达式。

问候， AMM

python regex scrape

2011-11-06T01:01:29.107

0 投票

3 回答

1409 浏览

php - PHP 抓取 HTML 之间

标签

我无法找出如何仅从内部抓取 HTML 内容

��有 PHP5 的标签。

我想以下面的文档为例，将 2 个（或更多的 pre 标签区域，它的动态）放入一个数组中。

我如何将另一台服务器上的 html 文件的 pre 标记之间的区域推入数组中。

php html screen-scraping scrape pre

2011-11-09T03:20:12.743

0 投票

1 回答

855 浏览

image - 为什么 Facebook Likes 坚持使用错误的产品图片...？

我的网站http://www.joaniesgifts.co.uk包括产品页面上的点赞按钮。但是，我发现当用户喜欢页面时，某些产品页面使用了不正确的图像。此页面是一个示例。

我认为这可能是由于最初的不正确设置，现在已更正。然而，问题依旧……

我唯一需要做的是，如果我在上述产品页面上使用 Facebook URL linter，我会收到以下错误。

URL 'http://www.joaniesgifts.co.uk/terramundi-money-pot-holiday-fund' 类型为 '213689662010141:product' 的对象无效，因为不允许使用域 'www.joaniesgifts.co.uk'对于拥有指定对象类型的应用程序 ID '213689662010141'。如果您是此应用程序的所有者，您可以在 developers.facebook.com/apps/213689662010141 验证您配置的“站点域”。（我已经验证了我网站的域名）

其他一切看起来都很好，只是它也显示了错误的图像！但是，在 Raw Open Graph Document Information 下，它具有正确的链接！

如果我然后单击Graph API - http://graph.facebook.com/10150450766583352 - 它再次显示链接错误的图像！

我还能做什么？

另外：Graph API 在几分钟前的一次刮擦后显示了不正确的图像。

image facebook caching facebook-like scrape

2011-11-11T18:54:08.323

0 投票

1 回答

87 浏览

php - 你如何删除我从网站上抓取的明文中的一部分？

这是我用来抓取名称和网址的代码，但每个名称都以~. 我想删除~部分。我尝试过使用str_replace，但从外观上看似乎不对。（也对其进行了测试，结果相同）

当前结果示例：

php string replace scrape

2011-11-12T08:48:36.230

0 投票

2 回答

687 浏览

php - php怎么刮里面
使用simplehtmldom？

php list loops foreach scrape

2011-11-15T09:45:30.367

0 投票

2 回答

8739 浏览

c# - 从c#中的网页刮取表格

构建一个函数以将网页上的 html 表格抓取到变量中的最佳方法是什么。

我希望能够向它传递一些唯一标识符（如表 ID 或其他东西），它将所有数据返回到类似 DataTable 的东西中。

c#html datatable scrape

2011-11-15T21:55:02.820

0 投票

1 回答

1234 浏览

php - php 在尝试获取 url 网页抓取的下一页时从 simplehtmldom 获取错误

我正在尝试获取该主题的下一页，但它给出了错误。有什么方法可以避免该错误，以便能够在该年龄主题中抓取下一页？（下一页是 20 和之后是 40 等等）下面给出了错误，我确定有人会要求我发布代码，但不确定我应该发布多少或什么代码。

http://blah.com/quotes/topic/age 20 1 1http://blah.com/quotes/topic/age/20

更新***

这是870-885之间的线

php url web-scraping scrape simple-html-dom

2011-11-16T06:34:16.597

0 投票

2 回答

1251 浏览

c# - 如何使用 WatIn 抓取页面上的超链接？

我正在尝试使用 WatIn 收集超链接列表（它链接到的 url）。我尝试使用：

我正在尝试列出我的richtextbox 中的所有超链接，但是上面返回了超链接名称，因此它一遍又一遍地显示“链接”。

此外，我只需要列出包含“webpage.php?id=”的网址/链接，然后在此之后有一个唯一的编号。如何返回仅由包含“webpage.php?id=”的抓取的 url 过滤？

更新：这是一个更新的测试，可以使用其他站点，但不是我需要的站点。下面的代码有效。

}

该代码似乎是正确的，但是它与我的特定网址和超链接的交互似乎是问题所在。我所关注的网站和超链接包含敏感信息，因此省略了它们。

使用我的网站主页http://website.com脚本运行，所以它有关于我将其发送到http://website.com/data.php?search=%22%22&cat的唯一页面的问题=0 可能是因为网址中的 .php 吗？如果有帮助，URL 也会存储在页面上，如下所示。

更新和解决方案：由于某种原因，当我尝试使用 Url.Contains 方法时似乎会出现问题。我最终所做的是将每个抓取的 Url 存储到一个列表中，并根据需要逐行测试我的列表以返回所需的 Url。非常感谢你的帮助。

c#filter watin bots scrape

2011-11-18T04:52:28.333

0 投票

2 回答

435 浏览

python - Scrapy SgmlLinkExtractor 添加任意 URL

如何将 url 添加到 SgmlLinkExtractor？也就是说，如何添加任意 url 来运行回调？

详细说明，以dirbot为例：https ://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py

parse_category仅访问与 SgmlLinkExtractor 匹配的所有内容 SgmlLinkExtractor(allow='directory.google.com/[AZ][a-zA-Z_/]+$')

python scrapy scrape

2011-11-20T15:09:04.287

问题标签 [scrape]

php - PHP：如何从网站源页面中提取内容或抓取数据集

python - 从 HTML 中提取数据

php - PHP 抓取 HTML 之间
标签

image - 为什么 Facebook Likes 坚持使用错误的产品图片...？

php - 你如何删除我从网站上抓取的明文中的一部分？

php - php怎么刮里面
使用simplehtmldom？

c# - 从c#中的网页刮取表格

php - php 在尝试获取 url 网页抓取的下一页时从 simplehtmldom 获取错误

c# - 如何使用 WatIn 抓取页面上的超链接？

python - Scrapy SgmlLinkExtractor 添加任意 URL

问题标签 [scrape]

Reference