在 Groovy 中,如何抓取网页并移除 HTML 标签等,只留下文档的文本?我希望将结果转储到一个集合中,以便我可以构建一个词频计数器。
最后,让我再次提一下,我想在 Groovy 中执行此操作。
在 Groovy 中,如何抓取网页并移除 HTML 标签等,只留下文档的文本?我希望将结果转储到一个集合中,以便我可以构建一个词频计数器。
最后,让我再次提一下,我想在 Groovy 中执行此操作。
假设您想使用 Groovy(基于 groovy 标记进行猜测)来执行此操作,您的方法很可能是面向 shell 脚本或使用 Java 库的。对于 shell 脚本,我同意 moogs 的观点,使用 Lynx 或 Elinks 可能是最简单的方法。否则,请查看HTMLParser并查看处理文件中的每个单词(向下滚动以查找相关代码片段)
您可能无法找到与 Groovy 一起用于 HTML 解析的 Java 库,因为它似乎没有任何 Groovy 库。如果您不使用 Groovy,请发布所需的语言,因为那里有大量的HTML 到文本工具,具体取决于您使用的语言。
如果您想要来自 HTML 的标记化单词的集合,那么您不能像 XML 一样解析它(需要是有效的 XML)并获取标签之间的所有文本吗?像这样的东西怎么样:
def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
it.text().tokenize().each {
list << it
}
}
您可以使用Lynx Web 浏览器吐出文档文本并保存。
您想自动执行此操作吗?您想要一个单独的应用程序来执行此操作吗?或者您需要帮助将其编码到您的应用程序中吗?它将在哪些平台(Windows 桌面、Web 服务器等)上运行?