我有一个带有类似图像标签的平面 HTML 文件库。我应该如何遍历所有这些并在特定图像标签的页面上找到特定的 x、y 坐标?
我在想我需要将每个页面呈现为图像(用我可以匹配的特定颜色替换我正在寻找的图像标签)或者我可以渲染无头渲染页面类似于phantom.js 并以这种方式找到坐标(尽管我不知道这是否可行)。有什么想法会更容易吗?
我更喜欢使用 LAMP 堆栈或 Node.js。
谢谢!
我有一个带有类似图像标签的平面 HTML 文件库。我应该如何遍历所有这些并在特定图像标签的页面上找到特定的 x、y 坐标?
我在想我需要将每个页面呈现为图像(用我可以匹配的特定颜色替换我正在寻找的图像标签)或者我可以渲染无头渲染页面类似于phantom.js 并以这种方式找到坐标(尽管我不知道这是否可行)。有什么想法会更容易吗?
我更喜欢使用 LAMP 堆栈或 Node.js。
谢谢!
我认为使用 PhantomJS 将是最简单的。不需要 node.js。
你可以结合examples/scandir.js
并examples/phantomwebintro.js
得到你想要的。
var system = require('system');
var fs = require('fs');
if (system.args.length !== 2) {
console.log("Usage: phantomjs scandir.js DIRECTORY_TO_SCAN");
phantom.exit(1);
}
function scanDirectory(path, cb) {
if (fs.exists(path) && fs.isFile(path)) {
cb(path);
} else if (fs.isDirectory(path)) {
fs.list(path).forEach(function (e) {
if (e !== "." && e !== "..") {
scanDirectory(path + '/' + e, cb);
}
});
}
}
function parsePage(path) {
var page = require('webpage').create();
page.open(path, function(status) {
if (status === "success") {
page.includeJs("http://code.jquery.com/jquery-latest.js", function() {
var images = page.evaluate(function() {
var images = [];
$('img').each(function() {
images.push({ src: $(this).attr('src'), pos: $(this).position() });
});
return images;
});
console.log(images);
});
}
});
}
scanDirectory(system.args[1], parsePage);
此脚本 ( phantomjs img.js kittens
) 将扫描目录中的文件,加载该目录(以及子目录,您可以在 中修改此行为scanDirectory
)中的每个文件,并查找<img>
该页面上的所有标签并返回一个数组及其src
属性和.position()
.
我花了大约 20 分钟才让它工作,所以我认为这是最简单的方法。