1

我正在使用 hpple 解析 HTML 文档。我遵循了 Ray Wenderlich 的教程,并让他们的示例文件一切正常。但是,我需要对其进行一些更改,以便为我的朋友博客读取某个 HTML 文件。该文件比我迄今为止使用的示例更复杂。文件的相关部分(完整上传的要点是:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US">
<!-- snip -->
<div id="content" class="hfeed">
            <div class="post-21443 post type-post status-publish format-standard hentry category-about-catherine">

      <div class="postdate">
      Apr          <br />
      6            <br />
      2013         
      </div>
    <h2 class="entry-title"><a href="http://catherinepooler.com/2013/04/stampnation-live-retreat-updates/" title="StampNation LIVE Retreat Updates" rel="bookmark">StampNation LIVE Retreat Updates</a></h2>

    <div class="post-info"></div>       <div class="entry-content">
        <p><a href="http://catherinepooler.com/wp-content/uploads/2013/04/IMG_0560.jpg" ><img class="aligncenter size-large wp-image-21444" alt="StampNation LIVE" src="http://catherinepooler.com/wp-content/uploads/2013/04/IMG_0560-450x337.jpg" width="450" height="337" /></a></p> <p>StampNation LIVE is in full swing!  We are having a wonderful time.  I am taking a quick break from stamping and chatting to share a few photos with you.</p> <p>I think my favorite thing in getting ready for the retreat was setting up the Accessory Bar.  Each attendee received a small galvanized bucket with their fully glittered initial on it to fill up at the bar.  Awesome!</p>
<!-- snip -->

文件中有几个这样的部分,我需要将所有

<h2 class = "entry-title"> 

(title="StampNation LIVE 撤退更新") 在一个数组中。我已成功放置

<div class = "entry-content"> 

使用 XPathQuery 放入一个数组中//div[@class = 'entry-content']/p。但是,如果没有由于空数组而导致代码崩溃,我似乎无法获得标题。显然我的 XPathQuery 不正确。这是我尝试过的。

//h2[@class = 'entry-title']  (: this crashed :)

//div[@class = 'post-21443.....']//h2[@class = 'entry-title']  (: this crashed too.   ")

以及一系列其他尝试!

有人对我有什么建议吗?我查看了许多 SO 答案,以及 hpple 附带的示例,但我无法将它们拼凑在一起。

更新:在 Jens 的帮助下,我将查询更改为
NSString *postsXpathQueryString = @"//h2[@class = 'entry-title']/a";

这给了我一个数组,但我现在也得到了这个错误。

2013-04-08 10:26:30.604 HTML[12408:11303] * 由于未捕获的异常“NSRangeException”而终止应用程序,原因:“* -[__NSArrayM objectAtIndex:]:索引 4 超出范围 [0 .. 3]” * First throw call stack: (0x210a012 0x1203e7e 0x20ac0b4 0x3852 0x2028fb 0x2029cf 0x1eb1bb 0x1fbb4b 0x1982dd 0x12176b0 0x2706fc0 0x26fb33c 0x2706eaf 0x2372bd 0x17fb56 0x17e66f 0x17e589 0x17d7e4 0x17d61e 0x17e3d9 0x1812d2 0x22b99c 0x178574 0x17876f 0x178905 0x9733ab6 0x181917 0x14596c 0x14694b 0x157cb5 0x158beb 0x14a698 0x2065df9 0x2065ad0 0x207fbf5 0x207f962 0x20b0bb6 0x20aff44 0x20afe1b 0x14617a 0x147ffc 0x1d2d 0x1c55) libc++abi.dylib:终止调用抛出异常

更新 2

通过在我重新加载数据时放入 if 语句来修复错误索引超出范围。我在我的 NSLog 中得到一个数组,但它没有把它放在我的表格视图中。表格视图出现空!!但不会再崩溃了!!!

最后更新

它现在可以工作了,Jens 帮我正确查询了查询,然后我只需要填写表格视图。我将数组计数设置为 20,因为 Ray 的 tut 有无数个条目。我朋友的博客,只有四个!感谢所有的帮助。

4

1 回答 1

1

问题:

您的文档包含命名空间:

<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US">

解决方案:

我不熟悉 hpple 和 ObjectiveC,所以我无法验证我在这个 hpple github 问题上调整的代码,但它看起来很合理。我想您所要做的就是将第一个参数更改为您的 xpath 上下文变量。

xmlXPathRegisterNs(xpathCtx, [@"xhtml" cString],[@"http://www.w3.org/1999/xhtml" cString]); 

然后,在每次访问元素时为这个命名空间添加前缀:

//xhtml:h2[@class = 'entry-title']

如果您不想使用命名空间(并且因为有不同而无需使用),则可以添加通配符命名空间:

//*:h2[@class = 'entry-title']
于 2013-04-08T14:48:58.667 回答