29

我有一个 CouchDB 视图映射函数,它生成存储的 HTML 文档的摘要(x文本的第一个字符)。不幸的是,我没有将 HTML 转换为纯文本的浏览器环境。

目前我使用这个多阶段正则表达式

html.replace(/<style([\s\S]*?)<\/style>/gi, ' ')
    .replace(/<script([\s\S]*?)<\/script>/gi, ' ')
    .replace(/(<(?:.|\n)*?>)/gm, ' ')
    .replace(/\s+/gm, ' ');

虽然它是一个非常好的过滤器,但它显然不是一个完美的过滤器,有时会漏掉一些剩菜。有没有更好的方法在没有浏览器环境的情况下转换为纯文本?

4

7 回答 7

27

这个简单的正则表达式有效:

text.replace(/<[^>]*>/g, '');

它删除所有锚点。

实体,比如&lt;不包含 <,所以这个正则表达式没有问题。

于 2013-03-02T22:31:41.463 回答
13

将 HTML 转换为 Gmail 等纯文本:

html = html.replace(/<style([\s\S]*?)<\/style>/gi, '');
html = html.replace(/<script([\s\S]*?)<\/script>/gi, '');
html = html.replace(/<\/div>/ig, '\n');
html = html.replace(/<\/li>/ig, '\n');
html = html.replace(/<li>/ig, '  *  ');
html = html.replace(/<\/ul>/ig, '\n');
html = html.replace(/<\/p>/ig, '\n');
html = html.replace(/<br\s*[\/]?>/gi, "\n");
html = html.replace(/<[^>]+>/ig, '');

如果你可以使用jQuery

var html = jQuery('<div>').html(html).text();
于 2013-11-19T12:36:48.650 回答
10

使用 TextVersionJS ( http://textversionjs.com ),您可以将 HTML 转换为纯文本。它是纯 javascript(带有大量 RegExp),因此您可以在浏览器和 node.js 中使用它。

在 node.js 中它看起来像:

var createTextVersion = require("textversionjs");
var yourHtml = "<h1>Your HTML</h1><ul><li>goes</li><li>here.</li></ul>";

var textVersion = createTextVersion(yourHtml);

(我从页面复制了示例,您必须先 npm install 模块。)

于 2016-07-27T12:14:54.963 回答
6

你可以试试这个方法。它们都不兼容所有浏览器textContentinnerText

var temp = document.createElement("div");
temp.innerHTML = html;
return temp.textContent || temp.innerText || "";
于 2018-04-13T02:11:12.010 回答
3

将 html 的 @EpokK 答案更新为电子邮件文本版本用例

const htmltoText = (html: string) => {
  let text = html;
  text = text.replace(/\n/gi, "");
  text = text.replace(/<style([\s\S]*?)<\/style>/gi, "");
  text = text.replace(/<script([\s\S]*?)<\/script>/gi, "");
  text = text.replace(/<a.*?href="(.*?)[\?\"].*?>(.*?)<\/a.*?>/gi, " $2 $1 ");
  text = text.replace(/<\/div>/gi, "\n\n");
  text = text.replace(/<\/li>/gi, "\n");
  text = text.replace(/<li.*?>/gi, "  *  ");
  text = text.replace(/<\/ul>/gi, "\n\n");
  text = text.replace(/<\/p>/gi, "\n\n");
  text = text.replace(/<br\s*[\/]?>/gi, "\n");
  text = text.replace(/<[^>]+>/gi, "");
  text = text.replace(/^\s*/gim, "");
  text = text.replace(/ ,/gi, ",");
  text = text.replace(/ +/gi, " ");
  text = text.replace(/\n+/gi, "\n\n");
  return text;
};

于 2020-12-04T22:02:36.600 回答
0

如果你想要一些准确的东西并且可以使用 npm 包,我会使用html-to-text

从自述文件:

const { htmlToText } = require('html-to-text');

const html = '<h1>Hello World</h1>';
const text = htmlToText(html, {
  wordwrap: 130
});
console.log(text); // Hello World

仅供参考,我在 npm 趋势上发现了这个;html-to-text似乎是我用例的最佳选择,但您可以在此处查看其他选项。

于 2021-02-28T00:30:57.937 回答
-4

很简单,你也可以实现一个“toText”原型:

String.prototype.toText = function(){
    return $(html).text();
};

//Let's test it out!
var html = "<a href=\"http://www.google.com\">link</a>&nbsp;<br /><b>TEXT</b>";
var text = html.toText();
console.log("Text: " + text); //Result will be "link TEXT"
于 2016-02-27T19:31:51.620 回答