linux - bash 脚本：网站中出现的单词

Question

我需要制作一个脚本来计算网页上出现的单词

我正在做的是计算随机IP（避免多次检查相同的ip），使用nmap查看端口80是否打开以了解它是否是Web服务器，然后我使用w3m将http页面作为文件。在它很容易计算单词出现之后

我有几个问题和问题

多谢

score -1 · Accepted Answer

我用 awk 做类似的事情。awk 非常适合文本解析。我所做的是分析在 Apache 日志中每个 IP 地址完成了多少 HTTP GET。所以像你这样的机器人很容易出现在我的统计数据中：P 使用 awk，我的性能优于我所有同事在 PHP、Ruby 和 bash 脚本中提出的所有解决方案。

问题是您没有为每个文件（或页面）生成统计信息。您正在总结所有结果，对吗？所以我会使用 SQLite 来跟踪一个单词在所有扫描文本中出现的次数。使用 shell 脚本在 SQLite 中添加数据很容易（而且很快）。

此外，您应该使用 wget --spider 或其他蜘蛛 HTTP 客户端，因为它们不仅会从索引页面下载内容，还会从第一页中包含链接 (HREF) 的所有页面下载内容。因此，您可以递归地扫描网站。

1 回答 1