问题标签 [webarchive]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
63 浏览

macos - macOS 上已保存 .webarchive 的原始 URL

我们有一个保存的 .webarchive,我们想要检索原始 URL。那可能吗?

背景。我的妻子在网上填写了一份很长的申请并保存了一份本地副本,.webarchive. 说明说,要进行更改,您必须转到您在提交的某个步骤时所在位置的 URL。这些说明很复杂/令人困惑,并且像大多数这些长应用程序一样无论如何都难以处理。她没有那个网址。那天我们回到了她的 Safari 历史记录和该网站的一个 URL,但这只是出现了一个错误。

为了了解网站的复杂程度,他们提供了一个下载 Flash Player 的链接。

我们正在尝试联系该网站。24 小时内到期。幸运的是,他们所拥有的一切都还好,她只是想进行一些编辑并添加一些信息。

我在文本编辑器中查看了 .webarchive 的 13k 行,浏览它并没有看到任何明显的东西。嵌入了一些com.apple.printplist,但没有 URL。我查看了获取信息并没有 URL(我从网上下载的一些东西有原始 URL)。

感谢您的任何帮助。

0 投票
1 回答
40 浏览

webarchive - 将 warc.gz 转换为 .warc

我尝试使用 gzip 提取 warc.gz 文件导致了 WARC,但它不会加载到http://replayweb.page中。

使用 Unarchiver 提取它给了我所有扩展的 html 和其他文件。

将warc.gz 转换为warc 的最新推荐方法是什么?出于某种原因,我在为这个简单的任务寻找建议的尝试中失败了。

谢谢!

0 投票
0 回答
34 浏览

twitter - 将推文转换为 .warc 格式

我一直在寻找将推文转换为 .warc 格式以进行存档的方法。类似于 Wayback 机器或网络记录器的东西。像这些工具一样,可以将网页转换为 .warc 格式,以便以后用于查看。我通过其 API(标准或高级)获得了 twitter 的数量。但我正在寻找将其转换为一种格式的方法,该格式可以帮助我以后将推文以最初发布的方式可视化。

0 投票
0 回答
43 浏览

archive - 以编程方式归档当前从 Safari Web 扩展在 Safari 中打开的页面(Chrome 中 chrome.pageCapture API 的替代方案)

我很想找到一种以编程方式归档当前在 Safari 中打开的网页的方法。在 Chrome 中,它是在 pageCapture API 的帮助下实现的,该 API 使用 MHTML 格式来存档网页。但 Safari 不支持 MHTML 格式。我正在 Safari 中寻找类似的功能

0 投票
1 回答
214 浏览

archive - 如何解压warc.zst 文件?

我正在尝试解压缩从此处下载的 WARC ZST 文件:https ://archive.org/details/archiveteam_yahooanswers_20210422220546_c4fac540

我尝试了该命令zstd -d yahooanswers_20210422220546_c4fac540.1619026173.megawarc.warc.zst,但出现此错误: 73.megawarc.warc.zst : 0 MB... 73.megawarc.warc.zst : Decoding error (36) : Dictionary mismatch 如何找到所述字典或有任何替代方法吗?

0 投票
0 回答
23 浏览

python - 如何删除每个“/”,除了 nginx 上的第一个

仅供参考:我正在尝试复制网络存档

现在,我正在抓取的所有 url 都被发送到路径“D:\website\dateoftoday”。我的代码将删除网址中的每个“/”,因为您无法保存带有斜杠的文件。我已经创建了一个 nginx Web 服务器来浏览这些文件,并且它可以工作,直到我尝试单击根相对路径(例如/blog/something)。这是意料之中的,因为该链接在我的路径中不存在(因为它被调用blogsomething而不是/blog/something)。

我的问题是:如何删除 Web 服务器上每个 url 的 url 中间的“/”?

0 投票
0 回答
14 浏览

quicklook - QLThumbnailImageCreate 是否仍然支持 webarchive

过去 QLThumbnailImageCreate 会从指向 webarchive 的 url 返回一个 NSImage。现在不这样做了。这是一个错误,还是我不明白什么?

0 投票
0 回答
19 浏览

sfsafariviewcontroller - 在 SFSafariViewController 中打开一个 .webarchive 文件

我需要在 iOS 设备上打开一个.webarchive文件。我知道我可以使用 WKWebview 打开它:

但理想情况下,我想使用SFSafariViewController打开文件,因为我不想重新创建浏览器的功能。

谢谢礼萨