我在所有包含 SEO 内容的电子商务网站的页面上都有一个 div。我想计算该 div 中的单词数。它用于诊断大型爬网中的空页面。
div 始终按如下方式开始:
<div class="box fct-seo fct-text
然后它包含<h1>
,<p>
和<a>
标签。
然后,显然,它以</div>
我如何使用 SED、AWK、WC 等获取 div 开头和结束 div 之间的所有代码并计算出现的单词数。如果它是 90% 准确,我很高兴。
您必须以某种方式告诉它在</div>
它找到第一次关闭之前停止扫描。
这是一个可以使用的示例页面:
http://www.zando.co.za/women/shoes/
非常感激。-P