我想抓取一组简单的页面,并认为我会使用 OpenRefine 来获取每个页面的 HTML,然后对其进行解析。我在寻找特定标签的内容,但奇怪的是,OpenRefine 没有显示该特定标签。这是 OR 第一次省略标签,我不知道为什么。以下是具体情况:
我正在抓取以下博客上分配给每个博客文章的类别:
http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p00-0.html
页面 URL 范围从 p00-0.html 到 p330-0.html。
所以我有一列页面,从 0 到 330,我将它们与 URL 结合起来:
" http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p " + 值 + "-0.html"
当我抓取每个页面的 HTML 内容时,我希望看到以下内容(这是第一个条目的预期结果):
<h3>Les prédictions du mage Houellebecq - Charlie Hebdo N°1177 - 7 janvier 2015</h3>
<div class="itemfooter"> Thèmes >> <a href="http://stripsjournal.canalblog.com/tag/2022"
rel="tag">2022</a>,
<a href="http://stripsjournal.canalblog.com/tag/Houellebecq" rel="tag">Houellebecq</a>,
<a href="http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo" rel="tag">Les
Unes de Charlie Hebdo</a>,
<a href="http://stripsjournal.canalblog.com/tag/livres" rel="tag">livres</a>,
<a href="http://stripsjournal.canalblog.com/tag/ramadan" rel="tag">ramadan</a>,
<a href="http://stripsjournal.canalblog.com/tag/religion" rel="tag">religion</a>,
<a href="http://stripsjournal.canalblog.com/tag/%C3%A9lections" rel="tag">élections</a>
</div>
<p><p style="text-align: center;"><a name="IMG_101392446"
href="http://p2.storage.canalblog.com/24/72/177230/101392446_o.jpg" target="_blank"><img
src="http://p2.storage.canalblog.com/24/72/177230/101392446.jpg" border="0" alt="01-1177-
Houellebecq" width="355" /></a></p>
相反,OR 完全省略了标记并产生以下输出:
<h3>Les prédictions du mage Houellebecq - Charlie Hebdo N°1177 - 7 janvier 2015</h3>
<p><p style="text-align: center;"><a name="IMG_101392446"
href="http://p2.storage.canalblog.com/24/72/177230/101392446_o.jpg" target="_blank"><img
src="http://p2.storage.canalblog.com/24/72/177230/101392446.jpg" border="0" alt="01-1177-
Houellebecq" width="355" /></a></p>
我是否犯了一些可笑的心不在焉的错误,还是与 OR 有什么关系?