问题标题说明了一切,经过一番谷歌搜索和几天的代码修改,我无法弄清楚如何下载网页的纯文本。
使用strip_tags();
仍然会留下JavaScript
andCSS
并尝试使用正则表达式对其进行清理也会导致问题。
是否有任何(简单或复杂)方法可以使用 PHP 以纯文本格式下载网页(例如 Wikipedia 文章)?
我使用 PHP 下载了该页面file_get_contents();
,如下所示:
$homepage = file_get_contents('http://www.example.com/');
正如我所说,我尝试使用strip_tags();
etc 但我无法获得纯文本。
我试过使用: http: //millkencode.googlecode.com/svn/trunk/htmlxtractor/ContentExtractor.php来获取主要内容,但它似乎不起作用。