我正在努力建立一个URL索引。目标是构建和存储一个数据结构,该结构具有作为域 URL 的键(例如 www.nytimes.com),值将是与该 URL 关联的一组特征。我正在寻找您对这组功能的建议。例如,我想将 www.nytimes.com 存储如下:
[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001, etc..]
为什么我要建造这个?好吧,最终目标是用这个索引做一些有趣的事情,例如我可以在这个索引上进行聚类并找到有趣的组等。我有很多文本,这些文本是由整个时间段内的大量 URL 生成的很多时间:) 所以数据不是问题。
任何形式的建议都非常受欢迎。