我已经阅读了有关使用 PERL、Ruby、Python 和 PHP 进行网络抓取或解析 RSS 提要的信息。
如果我使用其中一种语言来抓取页面,是否可以将抓取的信息写入 index.html 之类的 HTML 文件?我想从 RSS 提要中获取链接,并用它们在我的主页上制作一个菜单。
每次我抓取时,我都必须重写整个 HTML 文件?我有一个部分,“标题”,我需要每隔一小时左右更改一次,它从抓取的页面中获取信息。
这是每次抓取运行时我都需要更改的代码:
<article class="grid_4">
<div class="box-1">
<h3>HEADLINES</h3>
<ul class="list-1 p2">
<li><a href="more.html"><b></b><strong>Lorem ipsum</strong> dolor amet, consectetuer</a></li>
<li><a href="more.html"><b></b><strong>Adipiscing elit</strong> sed diam nonummy nibh</a></li>
<li><a href="more.html"><b></b><strong>Euismod tincidunt</strong> laoreet dolore magna</a></li>
<li><a href="more.html"><b></b><strong>Aliquam erat</strong> volutpat wisi enim ad minim</a></li>
<li><a href="more.html"><b></b><strong>Veniam nostrud</strong> exerci tation ullamcorper</a></li>
<li><a href="more.html"><b></b><strong>Suscipit lobortis</strong> nisl ut aliquip commodo</a></li>
<li><a href="more.html"><b></b><strong>Duis autem</strong> vel eum iriure dolor hendrerit</a></li>
<li><a href="more.html"><b></b><strong>In vulputate</strong> velit esse molestie consequat</a></li>
<li><a href="more.html"><b></b><strong>Vel illum</strong> dolore eu feugiat nulla facilisis</a></li>
<li><a href="more.html"><b></b><strong>At vero</strong> eros et accumsan</a></li>
</ul>
<div class="alignright p3"><a href="more.html" class="link-1">read more</a></div>
</div>
<a href="more.html" class="banner-1"></a> </article>
</div>
是否有可能做到这一点?如果没有,你能指出我开始阅读/学习它的地方吗?