问题标签 [heritrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
47 浏览

common-crawl - 哪个块代表 WARC-Block-Digest?

在下面的第 09 行有这一行:WARC-Block-Digest: sha1:CLODKYDXCHPVOJMJWHJVT3EJJDKI2RTQ

WARC的规格说The WARC-Block-Digest is an optional parameter indicating the algorithm name and calculated value of a digest applied to the full block of the record.

我一直在试图弄清楚full block of the record指的是什么。是11到16行吗?还是 12 到 16 号线?还是第 1 到 16 行(没有第 9 行)?我已经尝试散列这些可能性,但无法获得上面的 sha1(base 32)值。

0 投票
0 回答
32 浏览

apache - 如何解决 Apache 反向代理配置中的双斜杠问题

我在服务器上运行 java web 应用程序,并希望使用 Apache 作为反向代理来访问它。该网络应用程序是互联网档案网络爬虫heritrix。它在 localhost 上运行,并在端口 8443 上打开一个 Web 界面。

网络服务器可在 上访问https://heritrix.mywebcrawler.com在https://heritrix.mywebcrawler.com/engine上的访问工作正常,也在工作页面 ( https://heritrix.mywebcrawler.com/engine/job/test ) 上。

在作业页面上是Configuration-referenced Paths,通过一种我不完全理解的机制,它们提供对日志、配置、报告和创建的文件的访问,直接访问本地文件系统上的路径。问题是:这个 URL 包含一个双斜杠//,所以它们不能通过反向代理工作。我得到例如 URL https://heritrix.mywebcrawler.com/engine/anypath//home/user/heritrix/heritrix-3.4.0-20210923/jobs/test/warcs。所有这些 URL 都以 开头https://heritrix.mywebcrawler.com/engine/anypath/,后跟本地文件系统的绝对路径/home/user/heritrix/heritrix-3.4.0-20210923/jobs/test/seedsbs.txt?format=textedit

有没有办法删除虚拟主机配置中的第二个斜杠,以便这些链接工作?

我有以下虚拟主机配置: