我知道以前有人问过这个问题,但我找不到 node.js 的好答案
我需要服务器端从获取的 HTML 页面中提取纯文本(无标签、脚本等)。
我知道如何使用 jQuery 在客户端执行此操作(获取 body 标记的 .text() 内容),但不知道如何在服务器端执行此操作。
我试过https://npmjs.org/package/html-to-text但这不处理脚本。
var htmlToText = require('html-to-text');
var request = require('request');
request.get(url, function (error, result) {
var text = htmlToText.fromString(result.body, {
wordwrap: 130
});
});
我尝试过 phantom.js,但找不到获取纯文本的方法。