-1

我已经阅读了有关使用 PERL、Ruby、Python 和 PHP 进行网络抓取或解析 RSS 提要的信息。

如果我使用其中一种语言来抓取页面,是否可以将抓取的信息写入 index.html 之类的 HTML 文件?我想从 RSS 提要中获取链接,并用它们在我的主页上制作一个菜单。

每次我抓取时,我都必须重写整个 HTML 文件?我有一个部分,“标题”,我需要每隔一小时左右更改一次,它从抓取的页面中获取信息。

这是每次抓取运行时我都需要更改的代码:

<article class="grid_4">
        <div class="box-1">
          <h3>HEADLINES</h3>
          <ul class="list-1 p2">
            <li><a href="more.html"><b></b><strong>Lorem ipsum</strong> dolor amet, consectetuer</a></li>
            <li><a href="more.html"><b></b><strong>Adipiscing elit</strong> sed diam nonummy nibh</a></li>
            <li><a href="more.html"><b></b><strong>Euismod tincidunt</strong> laoreet dolore magna</a></li>
            <li><a href="more.html"><b></b><strong>Aliquam erat</strong> volutpat wisi enim ad minim</a></li>
            <li><a href="more.html"><b></b><strong>Veniam nostrud</strong> exerci tation ullamcorper</a></li>
            <li><a href="more.html"><b></b><strong>Suscipit lobortis</strong> nisl ut aliquip commodo</a></li>
            <li><a href="more.html"><b></b><strong>Duis autem</strong> vel eum iriure dolor hendrerit</a></li>
            <li><a href="more.html"><b></b><strong>In vulputate</strong> velit esse molestie consequat</a></li>
            <li><a href="more.html"><b></b><strong>Vel illum</strong> dolore eu feugiat nulla facilisis</a></li>
            <li><a href="more.html"><b></b><strong>At vero</strong> eros et accumsan</a></li>
          </ul>
          <div class="alignright p3"><a href="more.html" class="link-1">read more</a></div>
        </div>
        <a href="more.html" class="banner-1"></a> </article>
    </div>

是否有可能做到这一点?如果没有,你能指出我开始阅读/学习它的地方吗?

4

2 回答 2

2

安装 Beautiful Soup

pip install beautifulsoup4

然后阅读文档

(如果您没有 pip,请从此处安装:http ://www.pip-installer.org/en/latest/installing.html )

Beautiful Soup 会给你一个漂亮干净的网页版本。您可以搜索此结构以查找链接或您所追求的任何信息。

soup.find_all('a')

将为您提供页面中的所有链接。

要将这些放到网页上,有无数种可能性,我想到了一些:

  • 您可以生成网页

  • 您可以生成一个网页并将其加载到 iframe 中

  • 您可以生成一个包含所有链接的 JSON 格式的文本文件,并从嵌入在静态网页上的 Javascript 获取它

  • 正如你所说,你可以运行 Django

什么是最好的取决于很多因素——你多久可以刮一次?你应该多久刮一次?抓取是否必须发生在 Web 服务器上,还是应该发生在其他定期上传到您的 Web 服务器的计算机上?

模糊的问题,模糊的答案……

于 2013-01-15T15:42:20.423 回答
1

对的,这是可能的:

于 2013-01-15T15:41:40.307 回答