google-chrome - 具有存储网络历史记录的 Python 网络爬虫

Question

我正在创建一个 Python 网络爬虫，它能够浏览网络历史记录并解析信息并将重要信息存储在数据库中以供取证/学术用途。我了解浏览网站的功能，但我正在努力的部分是能够浏览网络历史记录，我将给出一个场景：

在法医调查期间。

您已获得嫌疑人计算机的完整取证图像，然后您找到 Google Chrome 的 AppData 文件夹，该文件夹存储有关嫌疑人的所有信息，包括表单信息、凭据和网络历史记录。

我将如何设置网络爬虫仅搜索嫌疑人网络历史记录中的数据。

我在访问存储在 Google Chrome 用户数据中的信息以尝试查看存储在此处作为开始的我的个人信息时也遇到问题，我目前正在尝试使用 DB 浏览器查看文件以尝试查看我自己的网络历史记录但是我我对此不太走运。有什么建议么

对于那些对我的这个项目感兴趣的人，我可以随时更新这个线程，这样你就可以看到我的网络爬虫的进度，最终结果将能够从公共和私人网站获取网络历史和数据，对重要信息进行排序，即姓名、地址、出生日期存入数据库，供以后用作传记词典。

我将再次强调这一点，因为这完全是出于受控环境中的学术目的并用于测试/伪造帐户

score 0 · Accepted Answer

Hindsight ( https://github.com/obsidianforensics/hindsight ) 是一个用 Python 编写的开源工具，可以从 /Google/Chrome/User Data/ 目录中的文件中解析大量信息。

您可以查看它的灵感来源，或者在您的爬虫中运行该工具并解析其输出（它可以生成 XLSX、JSON 或 SQLite）。

1 回答 1