0

我需要制作一个脚本来计算网页上出现的单词

我正在做的是计算随机IP(避免多次检查相同的ip),使用nmap查看端口80是否打开以了解它是否是Web服务器,然后我使用w3m将http页面作为文件。在它很容易计算单词出现之后

我有几个问题和问题

  • 这个过程需要很多,但我想不出任何方法可以让它更快
  • 许多开放了 80 端口的 ip 不是网站,它们没有启动并且可能有一些问题,有没有办法只检查启动的站点?
  • 这种方法只检查网站索引页面中出现的单词,有没有办法同时检查其他公共页面?

多谢

4

1 回答 1

-1

我用 awk 做类似的事情。awk 非常适合文本解析。我所做的是分析在 Apache 日志中每个 IP 地址完成了多少 HTTP GET。所以像你这样的机器人很容易出现在我的统计数据中:P 使用 awk,我的性能优于我所有同事在 PHP、Ruby 和 bash 脚本中提出的所有解决方案。

问题是您没有为每个文件(或页面)生成统计信息。您正在总结所有结果,对吗?所以我会使用 SQLite 来跟踪一个单词在所有扫描文本中出现的次数。使用 shell 脚本在 SQLite 中添加数据很容易(而且很快)。

此外,您应该使用 wget --spider 或其他蜘蛛 HTTP 客户端,因为它们不仅会从索引页面下载内容,还会从第一页中包含链接 (HREF) 的所有页面下载内容。因此,您可以递归地扫描网站。

于 2012-08-12T06:03:26.030 回答