我正在使用 Apify 抓取大约一百页,我希望将我访问的所有页面的 HTML 文件下载到一个 Dropbox 文件夹中。如何在我的 jQuery Ajax 代码中指定它?
提前抱歉,我对 Javascript 和所有与网络相关的东西都很陌生。
我已经尝试遵循这些教程:https ://forum.apify.com/t/data-download-from-within-crawler/48和https://www.dropbox.com/developers/documentation/http/ documentation#files-save_url但是,我只能下载我访问的第二页的 HTML 文件。我知道我的爬虫工作得很好并且可以访问它需要的所有站点,因为我从这些页面中获得了我需要的结果,所以问题似乎是我没有指定我要下载所有 HTML 文件。我该怎么做呢?
(在我的实际代码中,我用正确的 Oath-token 编写,我只是不希望它在网上供所有人看到)
var html = $('html').html();
var url = "https://content.dropboxapi.com/2/files/upload";
$.ajax({
url: url,
contentType: "application/octet-stream",
headers: {
"Authorization": 'Bearer ' + 'My Oath-token',
"Dropbox-API-Arg": "{\"mode\":\"add\",\"path\":\"/a.txt\"}",
},
type: 'POST',
data: html,
autoRename: true,
max_results: 1000
});
我从中得到的是在我的 Dropbox 中保存为 a.txt 的一个文件,这正是我想要的,只是这个文件只包含一个 HTML 文件,而不是一个包含我的爬虫访问过的所有文件的文件。
这段代码是我的爬虫为它访问的每个新页面遇到的第一件事。