java - 从网页中剥离 HTML 并计算词频？

Question

在 Groovy 中，如何抓取网页并移除 HTML 标签等，只留下文档的文本？我希望将结果转储到一个集合中，以便我可以构建一个词频计数器。

最后，让我再次提一下，我想在 Groovy 中执行此操作。

score 2 · Accepted Answer

假设您想使用 Groovy（基于 groovy 标记进行猜测）来执行此操作，您的方法很可能是面向 shell 脚本或使用 Java 库的。对于 shell 脚本，我同意 moogs 的观点，使用 Lynx 或 Elinks 可能是最简单的方法。否则，请查看HTMLParser并查看处理文件中的每个单词（向下滚动以查找相关代码片段）

您可能无法找到与 Groovy 一起用于 HTML 解析的 Java 库，因为它似乎没有任何 Groovy 库。如果您不使用 Groovy，请发布所需的语言，因为那里有大量的HTML 到文本工具，具体取决于您使用的语言。

score 1 · Accepted Answer

如果您想要来自 HTML 的标记化单词的集合，那么您不能像 XML 一样解析它（需要是有效的 XML）并获取标签之间的所有文本吗？像这样的东西怎么样：

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

score 0 · Accepted Answer

您可以使用Lynx Web 浏览器吐出文档文本并保存。

您想自动执行此操作吗？您想要一个单独的应用程序来执行此操作吗？或者您需要帮助将其编码到您的应用程序中吗？它将在哪些平台（Windows 桌面、Web 服务器等）上运行？

java - 从网页中剥离 HTML 并计算词频？

3 回答 3

Related

Reference