0

在编码方面,我是一名社会科学家,也是一个完整的新手/菜鸟。我已经搜索了其他问题/教程,但无法获得如何抓取专门针对评论部分的新闻网站的要点。理想情况下,我想告诉 python 抓取一些页面并将所有评论作为 .txt 文件返回。我试过了

from bs4 import BeautifulSoup
import urllib2
url="http://www.xxxxxx.com"

在我收到一条错误消息说bs4不是模块之前,这就是我所能做到的。我将不胜感激任何形式的帮助,如果您决定回应,请为我 DUMB IT DOWN!

我可以wget在终端上运行并从网站上获取各种文本,如果我能真正弄清楚如何将单个输出 html 文件保存到一个大的 .txt 文件中,那就太棒了。我将对任何一个问题作出回应。

4

3 回答 3

2

尝试刮擦。它是一个快速的高级屏幕抓取和网络抓取框架,用于抓取网站并从其页面中提取结构化数据。它可用于广泛的用途,从数据挖掘到监控和自动化测试。

于 2013-03-28T21:15:14.123 回答
0

您很可能会在使用过程中遇到这种情况,但在某些情况下,如果该网站使用第三方服务(例如 Disqus)进行评论,您会发现您无法以这种方式将评论拉下来。只是一个抬头。

我以前走这条路,不得不根据特定站点的布局/设计/等来定制脚本。

如果您不介意使用 Python 的字符串处理函数进行后处理,我发现 libcurl 非常方便。

如果你不需要纯粹在 Python 中实现它,你可以利用 wget 的递归镜像选项来处理内容拉取,然后编写你的 python 代码来解析下载的文件。

于 2013-03-28T21:44:11.620 回答
0

我也会在这里加两分钱。

首先要检查的是您安装了漂亮的汤,并且它位于可以找到的地方。这里有各种各样的问题。

我的经历与你的相似:我在一家网络创业公司工作,我们有很多注册用户,但没有向我们提供有关他们工作的信息(这对我们来说实际上很重要)。所以我的想法是从他们的电子邮件地址中的域中抓取主页和“关于我们”页面,并尝试围绕我捕获的数据放置一个学习算法来预测他们的工作。每个域的结果都存储为文本文件。

不幸的是(对你来说......对不起),我最终得到的代码有点复杂。问题是当你进行抓取时你最终会得到很多垃圾,你必须过滤掉它。您还将遇到编码问题,并且(假设您想在这里进行一些学习)您将不得不摆脱低价值的单词。总代码大约 1000 行,如果您有兴趣,我会在这里发布一些可能对您有所帮助的重要部分。

于 2013-03-28T22:15:17.510 回答