我需要编写一个 API,它可以提供对来自 Web 服务器的 HTML 文档的数据的访问。我需要我的用户能够对数据执行查询。
假设在网站上有一个列出项目及其所有者的页面。然后还有一组额外的所有者个人资料页面,每个所有者都提供有关其声誉的信息。我可能需要回答的一个示例查询是“给我 2013 年提交的所有项目的 ID 和所有者,其所有者的声誉至少为 10”。
给定一个要回答的查询,我需要能够只筛选我需要回答手头查询的网站部分。并且理想地缓存获得的信息以供将来与新查询一起使用。
我编写屏幕抓取部分没有问题,但我在设计存储/查询/缓存部分时遇到了困难。Clojure/Datomic 是否有一些东西使它成为这种数据处理的特别合适的技术选择?我之前已经指出了这个方向。