“scrape”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

947 浏览

.net - 如何抓取谷歌搜索结果中的描述

我正在使用 vb.net 开发应用程序，我的应用程序将使用 webbrowser 控件在 google 上进行简单搜索，该应用程序将抓取结果链接及其描述，我已成功抓取链接的 href，但我无法抓取描述每个链接的搜索结果！

任何帮助将不胜感激

提前谢谢了

2011-07-16T04:00:46.307

0 投票

5 回答

33464 浏览

python - 如何将数据输入网页以使用 Python 抓取结果输出？

我熟悉 BeautifulSoup 和 urllib2 从网页中抓取数据。但是，如果在返回我要抓取的结果之前需要在页面中输入参数怎么办？

我正在尝试使用此网站获取两个地址之间的地理距离： http ://www.freemaptools.com/how-far-is-it-between.htm

我希望能够进入该页面，输入两个地址，单击“显示”，然后提取“乌鸦飞的距离”和“陆路运输的距离”值并将它们保存到字典中。

有没有办法使用 Python 将数据输入到网页中？

python scrape

2011-08-13T00:49:39.787

0 投票

1 回答

523 浏览

java - 使用未签名的 Java 小程序从另一个域获取源代码

可能重复：
Java 和 crossdomain.xml

我需要一个未签名的（我不想提示要求运行小程序的访问者）Java 小程序，它可以从另一个域中抓取源代码。我使用 prowser 库制作了一个小程序，当我在 eclipse 上执行它（作为小程序）或作为可运行的 jar 时它可以工作，但是当我在我的网站上执行小程序时它不起作用。它返回我“空”。

我的小程序代码：

以前我在导入库时遇到问题：Export Applet Java with referenced libraries

在此先感谢您的帮助。

java applet scrape

2011-08-15T20:22:07.457

0 投票

1 回答

434 浏览

text - 如何从网页上的正文中提取前几句话

我们正在构建某种 digg 站点，并希望自动获取有限的文本（2-3 个句子）。它可以是文章的最后 3 句。如果这样会更容易。在moemt，我们毫无问题地获取网页内容，但想制作通用脚本以获取少量句子。我们希望避免为要从中获取内容的每个网站制作自定义脚本。

我在想逐点查找文本块。在近距离内找到点，而不是在点周围找到单词。那是原始的想法。是否有人有其他想法如何仅提取文本的一部分。

我们不想抓取全部内容。

谢谢你。

text scrape web

2011-08-24T19:21:32.013

0 投票

3 回答

3964 浏览

python - Python数据抓取

我想从http://www.youtube-mp3.org/下载几首歌曲。我正在使用 urllib2 和BeautifulSoup。

问题是，当我 urllib2 打开带有插入视频 ID 的站点http://www.youtube-mp3.org/?c#v=lV7r8PiuecQ时，我得到了该站点，但他们对此很棘手并加载了信息在带有一些 js ajax 内容的初始页面加载之后。因此，当我尝试抓取下载链接的 url 时，它实际上不在页面上，因为它尚未加载。

任何人都知道我如何在我的 python 脚本中触发这个 js 加载器，或者什么？

这是在将我想要的内容加载到其中之前的相关空 html。

python youtube urllib2 scrape

2011-08-30T08:11:18.750

0 投票

3 回答

13074 浏览

php - 如何从页面源中“抓取”内容？

我有这段代码可以获取页面的 HTML 源代码：

我想从中刮一些内容。例如，假设页面的源包含以下内容：

有没有一种方法可以从源代码中抓取它并将其存储在一个变量中，所以它看起来像这样：

technorati.com连接失败
icerocket.com连接失败
eblogs.com完成
等。

当然，页面是动态的，这就是我遇到问题的原因。我可以搜索源中的每个站点吗？但是那我将如何得到它之后的结果呢？（连接失败/完成）
非常感谢您的帮助！

php scrape

2011-09-06T14:23:37.213

0 投票

2 回答

2063 浏览

r - 用 R 抓取非 html 网站？

从 html 网站的 html 表中抓取数据既酷又简单。但是，如果网站不是用 html 编写的并且需要浏览器来显示相关信息，例如，如果它是一个 asp 网站或数据不在代码中而是通过 java 代码进入，我该如何完成这项任务？

就像在这里：http ://www.bwea.com/ukwed/construction.asp 。

使用 VBA for excel 可以编写一个打开和 IE 会话调用网站的函数，然后基本上复制和粘贴网站的内容。有机会用 R 做类似的事情吗？

r scrape

2011-09-21T14:03:06.063

0 投票

2 回答

1363 浏览

php - 长时间运行的 PHP 爬虫返回 500 内部错误

大多数情况下，我在谷歌上找到了我的问题的答案，但现在我被困住了。我正在研究一个刮板脚本，它首先刮掉网站的一些用户名，然后获取用户的每一个细节。涉及到两个爬虫，第一个通过主页，获取名字，然后获取其个人资料页面的详细信息，然后前进到下一页......我正在抓取的第一个站点总共有64个名字，显示在一个主页上，而第二个页面有4个页面，显示超过365个名字。

第一个效果很好，但是第二个不断让我收到 500 内部错误。我试图限制脚本，只抓取几个名字，这就像魅力一样，所以我更确定脚本本身没问题！我的 php ini 文件中的 max_execution_time 设置为 1500，所以我想这也不是问题，但是有一些原因导致错误......例如，不确定在每 10 个名称之后添加一个睡眠命令是否可以解决我的情况，但是好吧，我现在正在尝试！

因此，如果你们中的任何人知道什么可以帮助解决这种情况，我将不胜感激！

在此先感谢，z

php scrape scraper

2011-09-22T10:48:46.600

0 投票

2 回答

2026 浏览

php - 如何使用 PHP 从某个 DIV 中抓取文本并在 DIV 中排除 html 标签

我有一个正在处理的项目，我需要从特定的 div 标签中抓取文本，但只有文本没有 html 标签。

这是html的示例：

我需要用 H1 标签刮掉 DIV 内的文本。我已经尝试了很多方法，但无法做到正确。

有什么建议么？谢谢！

php screen-scraping scrape

2011-09-26T05:40:19.583

0 投票

1 回答

1204 浏览

php - XPath 选择父母兄弟的后代

这个 html 在我的页面中：

我想根据“按车辆类型优化”之后的事实来刮掉“汽车”和“卡车”。我尝试了许多不同的方法，这是我能得到的最接近的方法，但返回 NULL。

我错过了什么？

php html xpath scrape siblings

2011-10-02T02:50:50.133

问题标签 [scrape]

Reference