0

我想使用 PHP 从一个大型 HTML 页面中提取超过 100 个单词的文本块。文本是否包含在其中<p>...</p>并不重要。我只关心构成连贯文本块的单词数量,因此也应考虑 HTML 段落之外的文本。

如何才能做到这一点?

4

2 回答 2

5

我使用 phpQuery。你熟悉 jQuery 吗?它们共享相同的语法。您可能会担心安装一个新库,但相信我,这个库非常值得额外开销

查询

然后,您可以像这样访问它:

foreach($doc->find('p') as $element){
   $element = pq($element);
   echo str_word_count($element->text());
}
于 2011-03-08T23:21:50.367 回答
2

使用PHP 简单 DOM 解析器

foreach($html->find('p') as $element){
   echo str_word_count($element->src);
}
于 2011-03-08T23:18:30.863 回答