0

当谈到很多 Web 开发知识时,我无疑是一个“n00b”,所以请多多包涵。

我有一个网站的想法,该想法的一部分涉及扫描特定网页,然后按频率(考虑上下文)构建“关键字”排名表,以便为所述页面构建“配置文件”。

我的问题有两个:

A)哪种编程语言最适合此目的(快速,特别适合处理大量数据)。

B)我应该使用什么样的数据结构来创建这些频率表,以便与其他页面/表进行快速有效的分析/比较?另外,我应该如何存储表格本身,以便我可以快速浏览它们并确定相关性?我本质上想创建一个基于某些启发式和某些内容的搜索引擎。

到目前为止,这个想法比我大,但我想解决它。

4

1 回答 1

1

首先是合理的答案,然后是一些解释。

一个)。任何语言。几乎任何编程语言都可以工作。乙)。所有类型的结构。这取决于具体的任务。

计算机科学中有一个领域叫做“数据挖掘”。尝试搜索这些关键字。有大量的系统和库,例如 SOLR、Mallet、Serene、RapidMiner、R。不同的库使用不同的语言。我建议从您最熟悉的那个开始。

也许先读这个:http ://en.wikipedia.org/wiki/Tf%E2%80%93idf

于 2013-04-02T06:42:04.403 回答