python - 在 mac 终端中使用 Python 2.7.3 进行网络爬取的代码？

Question

在编码方面，我是一名社会科学家，也是一个完整的新手/菜鸟。我已经搜索了其他问题/教程，但无法获得如何抓取专门针对评论部分的新闻网站的要点。理想情况下，我想告诉 python 抓取一些页面并将所有评论作为 .txt 文件返回。我试过了

from bs4 import BeautifulSoup
import urllib2
url="http://www.xxxxxx.com"

在我收到一条错误消息说bs4不是模块之前，这就是我所能做到的。我将不胜感激任何形式的帮助，如果您决定回应，请为我 DUMB IT DOWN！

我可以wget在终端上运行并从网站上获取各种文本，如果我能真正弄清楚如何将单个输出 html 文件保存到一个大的 .txt 文件中，那就太棒了。我将对任何一个问题作出回应。

score 2 · Accepted Answer

尝试刮擦。它是一个快速的高级屏幕抓取和网络抓取框架，用于抓取网站并从其页面中提取结构化数据。它可用于广泛的用途，从数据挖掘到监控和自动化测试。

score 0 · Accepted Answer

您很可能会在使用过程中遇到这种情况，但在某些情况下，如果该网站使用第三方服务（例如 Disqus）进行评论，您会发现您无法以这种方式将评论拉下来。只是一个抬头。

我以前走这条路，不得不根据特定站点的布局/设计/等来定制脚本。

如果您不介意使用 Python 的字符串处理函数进行后处理，我发现 libcurl 非常方便。

如果你不需要纯粹在 Python 中实现它，你可以利用 wget 的递归镜像选项来处理内容拉取，然后编写你的 python 代码来解析下载的文件。

score 0 · Accepted Answer

我也会在这里加两分钱。

首先要检查的是您安装了漂亮的汤，并且它位于可以找到的地方。这里有各种各样的问题。

我的经历与你的相似：我在一家网络创业公司工作，我们有很多注册用户，但没有向我们提供有关他们工作的信息（这对我们来说实际上很重要）。所以我的想法是从他们的电子邮件地址中的域中抓取主页和“关于我们”页面，并尝试围绕我捕获的数据放置一个学习算法来预测他们的工作。每个域的结果都存储为文本文件。

不幸的是（对你来说......对不起），我最终得到的代码有点复杂。问题是当你进行抓取时你最终会得到很多垃圾，你必须过滤掉它。您还将遇到编码问题，并且（假设您想在这里进行一些学习）您将不得不摆脱低价值的单词。总代码大约 1000 行，如果您有兴趣，我会在这里发布一些可能对您有所帮助的重要部分。

3 回答 3