问题标签 [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - 如何抓取谷歌搜索结果中的描述
我正在使用 vb.net 开发应用程序,我的应用程序将使用 webbrowser 控件在 google 上进行简单搜索,该应用程序将抓取结果链接及其描述,我已成功抓取链接的 href,但我无法抓取描述每个链接的搜索结果!
任何帮助将不胜感激
提前谢谢了
python - 如何将数据输入网页以使用 Python 抓取结果输出?
我熟悉 BeautifulSoup 和 urllib2 从网页中抓取数据。但是,如果在返回我要抓取的结果之前需要在页面中输入参数怎么办?
我正在尝试使用此网站获取两个地址之间的地理距离: http ://www.freemaptools.com/how-far-is-it-between.htm
我希望能够进入该页面,输入两个地址,单击“显示”,然后提取“乌鸦飞的距离”和“陆路运输的距离”值并将它们保存到字典中。
有没有办法使用 Python 将数据输入到网页中?
java - 使用未签名的 Java 小程序从另一个域获取源代码
可能重复:
Java 和 crossdomain.xml
我需要一个未签名的(我不想提示要求运行小程序的访问者)Java 小程序,它可以从另一个域中抓取源代码。我使用 prowser 库制作了一个小程序,当我在 eclipse 上执行它(作为小程序)或作为可运行的 jar 时它可以工作,但是当我在我的网站上执行小程序时它不起作用。它返回我“空”。
我的小程序代码:
以前我在导入库时遇到问题:Export Applet Java with referenced libraries
在此先感谢您的帮助。
text - 如何从网页上的正文中提取前几句话
我们正在构建某种 digg 站点,并希望自动获取有限的文本(2-3 个句子)。它可以是文章的最后 3 句。如果这样会更容易。在moemt,我们毫无问题地获取网页内容,但想制作通用脚本以获取少量句子。我们希望避免为要从中获取内容的每个网站制作自定义脚本。
我在想逐点查找文本块。在近距离内找到点,而不是在点周围找到单词。那是原始的想法。是否有人有其他想法如何仅提取文本的一部分。
我们不想抓取全部内容。
谢谢你。
python - Python数据抓取
我想从http://www.youtube-mp3.org/下载几首歌曲。我正在使用 urllib2 和BeautifulSoup。
问题是,当我 urllib2 打开带有插入视频 ID 的站点http://www.youtube-mp3.org/?c#v=lV7r8PiuecQ时,我得到了该站点,但他们对此很棘手并加载了信息在带有一些 js ajax 内容的初始页面加载之后。因此,当我尝试抓取下载链接的 url 时,它实际上不在页面上,因为它尚未加载。
任何人都知道我如何在我的 python 脚本中触发这个 js 加载器,或者什么?
这是在将我想要的内容加载到其中之前的相关空 html。
php - 如何从页面源中“抓取”内容?
我有这段代码可以获取页面的 HTML 源代码:
我想从中刮一些内容。例如,假设页面的源包含以下内容:
有没有一种方法可以从源代码中抓取它并将其存储在一个变量中,所以它看起来像这样:
technorati.com连接失败
icerocket.com连接失败
eblogs.com完成
等。
当然,页面是动态的,这就是我遇到问题的原因。我可以搜索源中的每个站点吗?但是那我将如何得到它之后的结果呢?(连接失败/完成)
非常感谢您的帮助!
r - 用 R 抓取非 html 网站?
从 html 网站的 html 表中抓取数据既酷又简单。但是,如果网站不是用 html 编写的并且需要浏览器来显示相关信息,例如,如果它是一个 asp 网站或数据不在代码中而是通过 java 代码进入,我该如何完成这项任务?
就像在这里:http ://www.bwea.com/ukwed/construction.asp 。
使用 VBA for excel 可以编写一个打开和 IE 会话调用网站的函数,然后基本上复制和粘贴网站的内容。有机会用 R 做类似的事情吗?
php - 长时间运行的 PHP 爬虫返回 500 内部错误
大多数情况下,我在谷歌上找到了我的问题的答案,但现在我被困住了。我正在研究一个刮板脚本,它首先刮掉网站的一些用户名,然后获取用户的每一个细节。涉及到两个爬虫,第一个通过主页,获取名字,然后获取其个人资料页面的详细信息,然后前进到下一页......我正在抓取的第一个站点总共有64个名字,显示在一个主页上,而第二个页面有4个页面,显示超过365个名字。
第一个效果很好,但是第二个不断让我收到 500 内部错误。我试图限制脚本,只抓取几个名字,这就像魅力一样,所以我更确定脚本本身没问题!我的 php ini 文件中的 max_execution_time 设置为 1500,所以我想这也不是问题,但是有一些原因导致错误......例如,不确定在每 10 个名称之后添加一个睡眠命令是否可以解决我的情况,但是好吧,我现在正在尝试!
因此,如果你们中的任何人知道什么可以帮助解决这种情况,我将不胜感激!
在此先感谢,z
php - 如何使用 PHP 从某个 DIV 中抓取文本并在 DIV 中排除 html 标签
我有一个正在处理的项目,我需要从特定的 div 标签中抓取文本,但只有文本没有 html 标签。
这是html的示例:
我需要用 H1 标签刮掉 DIV 内的文本。我已经尝试了很多方法,但无法做到正确。
有什么建议么?谢谢!
php - XPath 选择父母兄弟的后代
这个 html 在我的页面中:
我想根据“按车辆类型优化”之后的事实来刮掉“汽车”和“卡车”。我尝试了许多不同的方法,这是我能得到的最接近的方法,但返回 NULL。
我错过了什么?