当谈到很多 Web 开发知识时,我无疑是一个“n00b”,所以请多多包涵。
我有一个网站的想法,该想法的一部分涉及扫描特定网页,然后按频率(考虑上下文)构建“关键字”排名表,以便为所述页面构建“配置文件”。
我的问题有两个:
A)哪种编程语言最适合此目的(快速,特别适合处理大量数据)。
B)我应该使用什么样的数据结构来创建这些频率表,以便与其他页面/表进行快速有效的分析/比较?另外,我应该如何存储表格本身,以便我可以快速浏览它们并确定相关性?我本质上想创建一个基于某些启发式和某些内容的搜索引擎。
到目前为止,这个想法比我大,但我想解决它。