在编码方面,我是一名社会科学家,也是一个完整的新手/菜鸟。我已经搜索了其他问题/教程,但无法获得如何抓取专门针对评论部分的新闻网站的要点。理想情况下,我想告诉 python 抓取一些页面并将所有评论作为 .txt 文件返回。我试过了
from bs4 import BeautifulSoup
import urllib2
url="http://www.xxxxxx.com"
在我收到一条错误消息说bs4
不是模块之前,这就是我所能做到的。我将不胜感激任何形式的帮助,如果您决定回应,请为我 DUMB IT DOWN!
我可以wget
在终端上运行并从网站上获取各种文本,如果我能真正弄清楚如何将单个输出 html 文件保存到一个大的 .txt 文件中,那就太棒了。我将对任何一个问题作出回应。