我有一些相当大的段落(5000-6000 字),其中包含文本和嵌入的 html 标签。我想把这个大段落分成 1500 个单词的块(忽略其中的 html 标记),即1500 应该只包含实际单词而不包括任何标记单词。 使用函数strip_tags
我可以计算单词的数量(忽略 html 标记),但我无法弄清楚如何将它分成 1500 个单词的块(仍然包括 html 标记)。例如
This is <b> a </b> paragraph which <a href="#"> has some </a> some text to be broken in <h1> 5 words </h1>.
结果应该是
1 = This is <b> a </b> paragraph which
2 = <a href="#"> has some </a> some text to
3 = be broken in <h1> 5 words </h1>.