用户可以将文件上传到服务器,这些文件将永久有效地存储。
我想知道是否有人有跟踪孤儿文件的想法。我的一些想法涉及记录每次上传,但是这些文件通常在 html 中引用,这不容易跟踪。
文件可以处于未使用状态,但仍可被引用。我可以对这些进行完整的文本搜索,但这是相当蛮力的。
难道我就放弃,让他们变老吗?
用户可以将文件上传到服务器,这些文件将永久有效地存储。
我想知道是否有人有跟踪孤儿文件的想法。我的一些想法涉及记录每次上传,但是这些文件通常在 html 中引用,这不容易跟踪。
文件可以处于未使用状态,但仍可被引用。我可以对这些进行完整的文本搜索,但这是相当蛮力的。
难道我就放弃,让他们变老吗?
我不知道您的情况,但我过去所做的是将所有旧文件(图像)移动到图像文件夹中的一个文件夹中,并使用 Xenu 检查我所有 HTML 页面中的链接。在链接验证结束时,Xenu 返回了一个 404 列表。然后,我使用 404 列表编写了一个脚本,将文件从备份位置移回图像文件夹。
这很好用......尽管以防万一我错过了一些东西,但仍然监视了几个星期的日志文件。
Xenu,顺便说一句,是一个免费的应用程序,它通过给它一个起始页来帮助你找到损坏的链接。然后它会在该页面中找到链接以抓取您的整个网站。如果在爬网期间未找到具有这些文件链接的页面,则需要额外的起始页面。