-1

从维基百科获取好莱坞一词的文章第一段的正确方法是什么?结果,$result变量包含页面的第一段

好莱坞是美国加利福尼亚州洛杉矶的一个地区,位于洛杉矶市中心的西北偏西。[2] 由于其作为电影制片厂和电影明星的历史中心的名声和文化身份,好莱坞这个词经常被用作美国电影的转喻。尽管大部分电影产业已经分散到周边地区,如西洛杉矶、圣费尔南多和圣克拉丽塔山谷,但重要的辅助产业,如剪辑、特效、道具、后期制作和灯光公司仍留在好莱坞,因为做派拉蒙影业的外景。

如果它包含 HTML 标签是可以的(甚至比纯文本更好)。

4

2 回答 2

3

我不知道 Kohana 是什么,但是要获取某个 Wikipedia 页面的 HTML 文本,您可以使用API

例如,要获取好莱坞文章第一部分的 HTML,您可以使用如下查询:

http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=revisions&titles=Hollywood&rvprop=content&rvsection=0&rvparse

这是 XML 格式,但 JSON 也是一种选择。

此外,这将返回整个第一部分(包括信息框),而不仅仅是第一段。

于 2013-01-08T13:04:56.640 回答
1

您可以使用Simple HTML DOM库轻松解析网页中的 HTML:

include('inc/simple_html_dom.php'); // this line should be replaced with the Kohana way of including the library

// Create DOM from URL
$html = file_get_html('http://en.wikipedia.org/wiki/Hollywood');

// Get the first paragraph
$p = $html->find('p', 0);

echo $p->innertext; // Prints <b>Hollywood</b> is a district in (...)

我从未使用过 Kohana,但似乎至少有 2 个用于 Simple HTML DOM 的 Kohana 模块,因此在您的项目中使用该库应该很容易。

于 2013-01-08T10:08:32.970 回答