php - 下载纯文本网页

Question

问题标题说明了一切，经过一番谷歌搜索和几天的代码修改，我无法弄清楚如何下载网页的纯文本。

使用strip_tags();仍然会留下JavaScriptandCSS并尝试使用正则表达式对其进行清理也会导致问题。

是否有任何（简单或复杂）方法可以使用 PHP 以纯文本格式下载网页（例如 Wikipedia 文章）？

我使用 PHP 下载了该页面file_get_contents();，如下所示：

$homepage = file_get_contents('http://www.example.com/');

正如我所说，我尝试使用strip_tags();etc 但我无法获得纯文本。

我试过使用： http: //millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.php来获取主要内容，但它似乎不起作用。

score 2 · Accepted Answer

这并不像看起来那么容易。我建议看一下PHP Simple HTML DOM Parser 之类的东西。除了难以删除的 JavaScript 和 CSS（并且对 HTML 使用 RegEx 是不合适的）之外，仍然可能存在一些内联样式以及类似的东西。

当然，这与 HTML 的复杂性有关。strip_tags在某些情况下可能就足够了。

score 1 · Accepted Answer

使用此代码：

require_once('simple_html_dom.php');
$content=file_get_html('http://en.wikipedia.org/wiki/FYI');
$title=$content->find("#firstHeading",0)->plaintext ;
$text=$content->find("#bodyContent",0)->plaintext;
echo $title.$text;

http://simplehtmldom.sourceforge.net

php - 下载纯文本网页

2 回答 2

Related

Reference