问题标签 [web-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-scraping - Web 数据挖掘任务的编程语言比较
对于与网络数据挖掘相关的任务(开发网络爬虫、字符串操作等),我需要一些帮助来比较不同的编程语言,例如:C++、Java、Python、Ruby 和 PHP。我对 PHP 有一点经验,我认为它对于这个特定任务的优点是语法简单、深入的字符串解析能力、网络功能和可移植性,但对其他语言及其优缺点了解不多与此特定任务相关。
vb.net - 从 vb.net (VS2008) 中的网站检索动态文本
我希望能够从网页(股价)中检索动态数据。在我意识到它是实时数据之前,我开始检索 html 代码,因此 html 代码几乎没有用处。尽管我希望捕获特定数据,但我想做的只是处理我指定的网页,该网页将返回该网站的文本,而不是 HTML 代码。基本上整个页面的复制和粘贴会很棒..任何想法都会非常感激!
vb.net - 是否有适用于 Visual Basic .NET 的 Mechanize?
我正在寻找一个类似于 perl、ruby 机械化的库。
基本上,我可以.click()
,它会点击表单按钮,或导航到链接等。
java - 如何在 Java 中抓取 Academic.google.com?
我想编写一个 Java 函数grabTopResults(String f)
,以便grabTopResults("automata theory")
为我返回一个在 Academic.google.com 上为“自动机理论”引用的前 100 篇论文的列表。
有人对哪些图书馆能让我的生活更轻松有什么建议吗?
谢谢!
python - 使用 Python/mechanize select_form() 时出错?
我正在尝试从网站上抓取一些数据。我正在尝试编写的脚本应该获取页面的内容:
应该模拟用户通过附加排名和日期的每个选项并模拟点击 Go 然后在获取数据后应该使用返回功能。
目前,我一直在尝试为附加声望选择此选项:
这是我尝试这样做的(糟糕的)尝试:
然而,它只是在应该选择第一个表单的 select_form(nr=0) 上失败。
这是 Python 返回的日志:
我无法在 mechanize 主页中找到所有功能的正确解释。谁能指出我使用表格和机械化的正确教程或在这个特定问题上帮助我?
安东尼
python - 使用 Python 进行网页抓取
我想从网站上获取每日日出/日落时间。是否可以使用 Python 抓取网页内容?使用了哪些模块?有没有可用的教程?
web-scraping - 是否存在任何开放的、可简单扩展的网络爬虫?
我寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣......或扩展爬虫以满足它们的可能性:
- 部分只是为了阅读几个网站的提要
- 抓取这些网站的内容
- 如果该站点有存档,我也想对其进行爬网和索引
- 爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准
- 如果发现可能符合我兴趣的东西,应该能够通知我
- 爬虫不应该通过太多请求攻击它来杀死服务器,它应该很聪明地进行爬取
- 爬虫应该对怪异的站点和服务器很健壮
上面的这些事情可以一一完成,而不需要任何大的努力,但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch,但目前对这个项目非常不确定。你有这方面的经验吗?你能推荐替代品吗?
asp.net - 捕获用于监控的 ASP 输出
如何捕获 ASP.NET 输出,然后将其存储为临时内存,以便我可以在应用程序中使用它们进行比较。
例子。
有这个站点有 ASP 输出。对不起,我没有服务器访问权限,我能做的是查看输出。
顺便说一句,该站点是所有登录用户以及在哪个频道中的监视器。
输出例如
我想做的是捕获这个输出,然后以这种方式显示它们。
我不知道从哪里开始。
post - 自动将登录详细信息用户和密码发布到 Safari 以进行抓取
我想在登录页面上自动输入帖子变量以进行网络抓取。如果我可以通过登录页面,它将无休止地改善过程。
然后我可以安排一些功能自动循环运行。(尝试了一些 CURL 命令,但无法获得结果)
谢谢你的帮助,
槊
c# - 在 C# 中实现动态 Web Scraper 的逻辑
我希望在 C# 窗口窗体中开发一个 Web 刮板。我要完成的工作如下:
- 从用户那里获取 URL。
- 在 WINForms 的 IE UI 控件(嵌入式浏览器)中加载网页。
- 允许用户选择文本(连续、小(不超过 50 个字符))。从加载的网页。
- 当用户希望保存位置(HTML DOM 位置)时,必须将其保存到数据库中,以便用户可以在后续访问期间使用该位置来获取该位置的数据。
假设加载的网站是一个价格列表网站,并且报价不断变化,想法是保持 DOM 层次结构,以便我下次可以遍历它。
如果所有 HTML 元素都有其 id 属性,我将能够做到这一点。在 id 为 null 的情况下,我无法做到这一点。
有人可以对此提出一个有效的想法(如果可能的话,一个最少的代码片段)。?
即使您可以共享一些在线资源,这也会有所帮助。
谢谢,
维杰