在我的应用程序中,我有一些网页的 URL,我想通过识别 html 标签从该 URL(其 html 页面)中仅获取特定的部分/部分。
例如,我想<div id="content"> to </div>
按照 html 源代码获取部分。这样我就可以将其保存在另一个文件中。
例如我的网址是
2) http://www.windpowerengineering.com/policy/new-study-shows-the-benefits-of-wind-energy-in-kansas/
所有这些 URL 都会打开文章 html 页面。但我只想显示HTML 页面的主要内容。
我也通过我的以下代码仅针对某些 URL 取得了成功。
我的代码:
NSString *originalString = [NSString stringWithContentsOfURL:[NSURL URLWithString:@"http://www.windpowerengineering.com/uncategorized/how-superfinishing-boosts-component-reliability/"] encoding:NSUTF8StringEncoding error:nil];
NSScanner *scanner = [NSScanner scannerWithString:originalString];
NSString *extractedString = nil;
[scanner scanUpToString:@"<div id=\"content\">" intoString:nil];
[scanner scanString:@"<div id=\"content\">" intoString:nil];
[scanner scanUpToString:@"<div style=\"clear:both;\">" intoString:&extractedString];
if (extractedString)
{
// string was extracted
NSLog(@"%@", extractedString);
}
但是不同的页面可能有多个 <div style=\"clear:both;\">
标签。因此,当该方法遇到该标签时,它会显示我只显示该标签之前的内容。
建议现在,我想计算所有<div>
标签并尝试从该 HTML 页面获取所有主要内容。但我很困惑这样做。
我该怎么做?
帮我!!
谢谢..