是否有网络抓取工具或库可以自动检测重复的 HTML 块并抓取块内的文本内容,从而无需人工输入规则 - CSS 选择器或 xpath 来查找内容?
这是基于现代内容网站是由 PHP 或 Python 等服务器端语言动态生成的假设。内容几乎总是由模板中的 for 循环呈现,因此总是可以找到重复的 HTML 块。一个例子:
<div id="content">
<div class="blog entry">
<div class="title">
<h1>1st post</h2>
</div>
<div class="content">
<p>...</p>
</div>
</div>
<div class="blog entry">
<div class="title">
<h1>2nd post</h2>
</div>
<div class="content">
<p>...</p>
</div>
</div>
<div class="blog entry">
<div class="title">
<h1>3rd post</h2>
</div>
<div class="content">
<p>...</p>
</div>
</div>
</div>
像 bautiful soap 和 scrapy 这样的库需要人工输入规则才能进行抓取。它们不是我想要的。