python - 关于网页抓取 - 使用 urllib（也许还有 beautifulsoup）

Question

我正在抓取的网站：链接

我要解析的标签： START - <p id="p-1">， FINISH -</p>

我的代码：

from urllib import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://mansci.journal.informs.org/gca?gca=mansci%3B6%2F2%2F141&gca=mansci%3B6%2F2%2F149&gca=mansci%3B6%2F2%2F165&gca=mansci%3B6%2F2%2F172&gca=mansci%3B6%2F2%2F187&gca=mansci%3B6%2F2%2F191&gca=mansci%3B6%2F2%2F197&gca=mansci%3B6%2F2%2F205&gca=mansci%3B6%2F2%2F215&submit=Get+All+Checked+Abstracts').read()

a = re.compile('<p id="p-1">(.*)</p>')
b = re.findall(a,html)

我遇到的问题是我的代码逐行查看，我不知道如何解析整个段落。

score 0 · Accepted Answer

使用beautifulsoup，然后如下：

from urllib2 import urlopen
from bs4 import BeautifulSoup

soup = BeautifulSoup(urlopen(your_url).read())
print soup.find('p', {'id': 'p-1'}).text

给...

衡量的可能性并不一定会导致为商业决策提供相关信息。这可以通过参考会计方法，特别是利润计算来证明。会计流程已经正式化到歪曲财务结果和状况的程度；由于对重要概念的定义缺乏谨慎以及同时接受具有直接相反的正当理由和后果的程序，资源得到有效利用和利益方之间的公平得到服务的可能性大大降低。随着信息处理速度的提高和计算改进的发展，有必要做出相应的努力来重新定义与运营相关的术语，或加强对利润、资本、成本等关键概念的定义。会计和辅助计算的发展历史说明了允许测量和通信系统制度化的后果。提出了一些提高会计和类似信息相关性的建议。资金成本。会计和辅助计算的发展历史说明了允许测量和通信系统制度化的后果。提出了一些提高会计和类似信息相关性的建议。资金成本。会计和辅助计算的发展历史说明了允许测量和通信系统制度化的后果。提出了一些提高会计和类似信息相关性的建议。

python - 关于网页抓取 - 使用 urllib（也许还有 beautifulsoup）

1 回答 1

Related

Reference