0

问题标题说明了一切,经过一番谷歌搜索和几天的代码修改,我无法弄清楚如何下载网页的纯文本。

使用strip_tags();仍然会留下JavaScriptandCSS并尝试使用正则表达式对其进行清理也会导致问题。

是否有任何(简单或复杂)方法可以使用 PHP 以纯文本格式下载网页(例如 Wikipedia 文章)?

我使用 PHP 下载了该页面file_get_contents();,如下所示:

$homepage = file_get_contents('http://www.example.com/');

正如我所说,我尝试使用strip_tags();etc 但我无法获得纯文本。

我试过使用: http: //millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.php来获取主要内容,但它似乎不起作用。

4

2 回答 2

2

这并不像看起来那么容易。我建议看一下PHP Simple HTML DOM Parser 之类的东西。除了难以删除的 JavaScript 和 CSS(并且对 HTML 使用 RegEx 是不合适的)之外,仍然可能存在一些内联样式以及类似的东西。

当然,这与 HTML 的复杂性有关。strip_tags在某些情况下可能就足够了。

于 2013-08-03T05:45:55.573 回答
1

使用此代码:

require_once('simple_html_dom.php');
$content=file_get_html('http://en.wikipedia.org/wiki/FYI');
$title=$content->find("#firstHeading",0)->plaintext ;
$text=$content->find("#bodyContent",0)->plaintext;
echo $title.$text;

http://simplehtmldom.sourceforge.net

于 2013-08-03T05:49:55.260 回答