我正在尝试做什么(请没有其他建议,我知道更传统的解决方案)无需编写任何特定于站点的代码(例如,在特定 URL 处获取最大的图像)即可轻松地从网页(例如图像)中抓取数据。这只是一种可能性。
我的梦想(也用于其他用途) 我知道您可以使用许多使用 DOM 模型的 API 进行抓取。但肯定有人想到了更高层次的东西吗?shell 脚本最吸引人的地方之一是您可以使用基本命令对基本文件 I/O 进行数据操作:Grep 加上正则表达式(awk、sed、perl)可以立即让您接触到基于文件的数据的金矿. 什么shell脚本是文件,javascript应该是网页。但是当你通过标签和属性来处理事情时,代码会变得如此混乱。如果有像这样的某种 API,那不是很好吗?
# determine the biggest image by checking images[0].height etc.
$("< http://www.cnn.com/man-has-three-eyes.html").images[0].url
有没有尝试过这样的 API?我猜不是。如果不是,是什么让这在技术上不切实际?如果是这样,哪种 javascript 框架最接近提供此功能?
(如果没有,我应该为“Scrapy Eye”或“ScrAPI”之类的品牌申请商标保护!)