给定一个 HTML 正文,是否有人编写了任何函数可以自动提取从一大块 HTML 中出现的前 10 个关键字,不包括任何 HTML 标记(即纯文本)?
它应该忽略“and”、“is”、“but”等常用词,但列出最常见的不常用词。
示例输入:
Mary had a <strong>snow</strong> lamb. <img src=lamb.jpg /> The <i>lamb</i> was snow white, it lay in the snow all white.
输出:
Snow (3)
White (2)
Lamb (2)
jquery很好!