我想获取一个链接(并获取它的 HTML)并且只保留重要的部分,比如文章。Objective-C 有许多 HTML 解析库——例如hpple——但我想做的不仅仅是解析特定的东西,我需要一些东西来删除所有不属于可读内容的东西。有点像 Instapaper、Readability、Pocket 或 Safari 的阅读器功能。
在 Objective-C/iOS 中实现这一目标的最佳方法是什么?
我不确定在 Objective-C 中是否有办法,但 Readability 有一个开源的 Javascript 实现,可以获取网页的内容。另请参阅此答案和可能对您有所帮助的链接代码(称为“样板”)。虽然它似乎是在 Java 中。
如果只是获取链接,请使用NSDataDetector
扫描文本。