我想知道在 Objective-C 中是否有任何现有的库或可以从 Objective-C 访问这些库,这些库可以让我抓取像这样格式化的页面。具体来说,所有日期和每个日期旁边的所有文本。如果不是,那么最好的方法是什么?常用表达?我听说NSString
可能已经为此提供了内置方法。这是真的?
我环顾四周,看看是否有任何替代抓取的方法,例如 XML 文件或 API。我确实找到了一个 API,但我看到的唯一可用的客户端是其他语言的,它们似乎只能将内容发布到页面,而不是检索它。
编辑:所以我在这些链接中找到了有关 API 的更多信息:
我能够提出这个请求,它返回一些 HTML 编码的文本(格式是 XML,但它包括页面的文本等»a href=
。我会继续查看文档,看看我能不能把这个出来好一点,如果不是,有没有关于解析这个的建议?
编辑 2:好的,多亏了这个文档页面,我能够检索数据的最简单和最干净的方法是使用这个构造的链接,它返回相关部分的原始数据(在 wiki 标记中)。但是,我想我需要解析它,但如果确实如此,它应该比整篇文章容易得多。
是否有人对解析 wiki 标记有任何建议,例如 Objective-C 中的以下内容?
==Events==
* [[710]] – [[Saracen]] invasion of [[Sardinia]].
*[[1275]] – Traditional founding of the city of [[Amsterdam]].
*[[1682]] – [[Philadelphia]], [[Pennsylvania]] is founded.
我最终想要的是,我猜想一个NSDictionary
或类似的集合将存储日期以及随附的信息片段。谢谢!