问题标签 [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Java 从 HTML 页面中抓取数据,输出到数据库
我需要知道如何创建一个刮板(在 Java 中)以从 HTML 页面收集数据并输出到数据库......不知道从哪里开始,所以你可以给我的任何信息都会很棒。另外,你在这里不能太基本或简单......谢谢:)
python - Beautifulsoup 和 mechanize 获取 ajax 调用结果
嗨,我正在使用 python 2.5 和 beautifulsoup 构建一个刮板,但我遇到了一个问题......用户单击某个按钮后正在生成网页的一部分,通过使用适当的参数调用特定的 javacsript 函数来启动 ajax 请求
有没有办法模拟用户交互并得到这个结果?我遇到了一个机械化模块,但在我看来,这主要用于处理表单......
我将不胜感激任何链接或一些代码示例谢谢
php - Facebook 喜欢点播元内容抓取工具
你们有没有见过,FB 会在您将其粘贴到链接字段后立即抓取您在 facebook 上发布的链接(状态、消息等),并显示各种元数据、图像的拇指、来自页面链接的各种图像或来自视频相关链接(如 youtube)的视频拇指。
任何想法如何复制此功能?我正在考虑几个齿轮工,或者甚至更好的是 javascript,它执行 xhr 请求并根据正则表达式或类似的东西解析内容......有什么想法吗?任何链接?是否有人已经尝试过这样做并将其包装在一个不错的班级中?任何事物?:)
谢谢!
pdf - 从域中获取所有 pdf 文件(例如 *.adomain.com)
我需要从某个域下载所有 pdf 文件。该域上大约有 6000 个 pdf,其中大多数没有 html 链接(他们已经删除了链接,或者他们从未将链接放在首位)。
我知道大约有 6000 个文件,因为我正在谷歌搜索:filetype:pdf site:*.adomain.com
但是,Google 仅列出前 1000 个结果。我相信有两种方法可以实现这一目标:
a) 使用谷歌。但是,我如何才能从 Google 获得所有 6000 个结果?也许是刮刀?(试过 scroogle,没有运气) b)跳过谷歌并直接在域上搜索 pdf 文件。当大多数它们没有链接时,我该怎么做?
web-crawler - 履带式与刮板式
有人可以根据范围和功能区分爬虫和抓取工具吗?
screen-scraping - 阻止网络抓取工具
网站可以通过哪些方式阻止网络爬虫?您如何确定您的服务器是否正在被机器人访问?
php - 抓取电子邮件地址
fff.html 是一封包含电子邮件地址的电子邮件,有些有 href mailto 链接,有些没有,我想抓取它们并将它们输出为以下格式
我有一个简单的刮刀来获取那些链接href但有些奇怪的东西
我应该为最初使用 lorem ipsum 加分
php - 如何在 PHP 中创建 HTML 刮板并使其正常工作?
请帮忙!:(
我希望开发一个 PHP 脚本来执行以下操作:
- 报废一个远程 HTML 页面并提取选定的数据(例如特定的表/div)
- 使用提取的数据并将其保存到数据库中(例如 MySql)
任何人都可以帮忙吗?
感谢并感谢您的尽快反馈。
python - Facebook 流 API 错误适用于浏览器,但不适用于服务器端
如果我在浏览器中输入此 URL,它会返回我有兴趣抓取的有效 XML 数据。
但是,如果我从服务器端执行此操作,则它不会像以前那样工作。现在它只是返回这个错误,这似乎是默认的错误信息
这是有问题的代码,我尝试了多个用户代理,但无济于事:
除了用户代理和 IP 地址之外,服务器调用和我自己的浏览器之间有什么区别?
hyperlink - 有没有办法通过 URL 找到所有页面的链接?
如果我有链接说http://yahoo.com/那么我可以在 yahoo 中获取链接吗?例如,我有一个网站http://umair.com/,我知道只有 5 页主页、关于、投资组合、常见问题、联系方式,所以我可以通过编程方式获取如下链接吗?