这是一个算法问题。为了清楚起见,我对工作代码不感兴趣,而是对如何普遍处理任务感兴趣。
我们有一个有 4 个 CPU 的服务器,没有数据库。有 100,000 个 HTML 文档存储在磁盘上。每个文档的大小为 2MB。我们需要一种有效的方法来确定出现在该集合中的单词“CAMERA”(不区分大小写)的计数。
我的方法是
- 解析 HTML 文档以仅提取单词
- 然后对单词进行排序,
- 然后对该集合使用二进制搜索。
换句话说,我会创建线程,让它们使用所有 4 个 CPU 将 HTML 文档解析为单个大型单词集合文本文件,然后对其进行排序,然后使用二进制搜索。
你觉得这怎么样?