1

我正在尝试获取文章的摘要并将其作为字符串下载。这适用于某些文章,但维基百科网站不一致。所以 NSScanner 经常失败,而它在其他文章中运行良好。

这是我的 NSScanner 实现:

NSString *separatorString = @"<table id=\"toc\" class=\"toc\">";                                 
NSScanner *aScanner = nil;
NSString *container = nil;
NSString *muString = [NSString stringWithString:@"</table>"];

aScanner = [NSScanner scannerWithString:string];  
[aScanner setScanLocation:0];                                                   
[aScanner scanUpToString:muString intoString:nil];           
[aScanner scanString:muString intoString:nil];    

[aScanner scanUpToString:separatorString intoString:&container];

如何改进?还是有其他方法可以得到这个?

为了可视化我想要的文章的哪一点,这里有一个例子:

http://en.wikipedia.org/wiki/Indigo

从这里我想要从“靛蓝是电磁光谱上的颜色”到“英语是 1289 年”的所有内容。

谢谢!

4

1 回答 1

1

您可以使用WebKit 的 DOM API来遍历实际结构,而不是尝试盲目地解析文本。

于 2010-09-22T19:08:20.317 回答