问题标签 [html-to-text]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3597 浏览

xml - 找不到 htmlToText

我正在尝试运行几个月前编写的 R 脚本。我想下载在线信息,这就是我使用 htmlToText 函数的原因。即使我包含了 RCurl 和 XML 包,R 也找不到这个函数。

为什么会这样,我该如何解决这个错误?

最佳皮特

0 投票
1 回答
743 浏览

jsoup - 将包含 HTML 的 txt 转换为纯文本

我正在尝试找到一种工具来将包含 html 的 TXT 文件解析为纯文本,同时保持其格式化、列表等

我已经能够找到这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 完美的作品。唯一的问题是它读取的是 URL,而不是文件。我尝试对代码进行一些更改但没有成功

有人可以指出我如何让​​它读取我的 txt 文件作为输入的正确方向吗?

0 投票
1 回答
109 浏览

.net - 如何在保留选项卡和其他有效的纯文本布局的同时将 HTML 转换为纯文本

WRT这个解决方案,请问我们如何调整它以保留 选项卡和其他有效的纯文本布局

参考解决方案:

0 投票
1 回答
1706 浏览

java - 而不是在 docx 中呈现表格和其他 html 标记,而是使用 docx4j-ImportXHTML 将它们保存为纯文本

我想将 html 代码呈现给 docx。而不是呈现html(即表格格式的表格),它只是将html代码作为纯文本写入其中。我正在使用 docx4j-ImportXHTML jar。我使用了此处的代码并对其进行了修改以保存在文件中。

我究竟做错了什么?

0 投票
1 回答
386 浏览

java - 在 java 中使用 docx4j 将文本替换为 dotx 文件中的 HTML 代码

我有一些带有占位符的文档模板(.dotx 文件)。我需要阅读该模板并将占位符替换为来自数据库列的实际文本。我可以使用 docx4j 的 WordprocessingMLPackage 来做到这一点,但问题是,在某些数据库列中有 HTML 代码。这是来自富文本编辑器字段的文本。当我尝试在 word 文档模板中替换此文本时,我将纯 html 代码复制到文档中。我想将该 html 代码转换为实际的 html 文本并写入文档。我怎样才能做到这一点?

0 投票
2 回答
1705 浏览

angular - 无法在 TinyMCE 文本区域上显示我的 HTML 内容

我正在尝试通过使用 tinymce 而不是文本区域在我的应用程序模式上创建富文本编辑器。但我的 HTML 代码无法在富文本的内容区域显示为文本。我正在使用 Angular 2。

任何帮助都会得到帮助

0 投票
1 回答
425 浏览

html - 如何将 HTML 转换为格式化的 Text,使间距、表格边框、元素定位等布局保持不变?

如何HTML转换为格式化的Text,让间距、表格边框、元素定位等布局保持原样?有没有相同的工具?

已经尝试了以下几个选项,但输出格式不符合要求:

  1. TxtControl 转换
  2. PythonCom 转换

问题:将 HTML 表格转换为单元格之间的间距导致单元格内容移动到下一行,从而干扰格式。预期输出为:表格行单元格内容应在同一行中,并且文本文件中的边框应完好无损。

此外,PDF/RTF 到 TEXT 的转换也可以工作,只是格式应该是完整的。

附上屏幕截图以更清楚地了解要求。 输入 HTML 屏幕截图

输出文本屏幕截图

或者,有没有办法逐个字符地读取 HTML 并写入文本文件,这样布局在文本输出中不会改变。

0 投票
2 回答
78 浏览

python - 将 HTML 转换为看起来像是使用 Python 从浏览器复制的纯文本

我想在 Python 中将 HTML 转换为纯文本,我希望结果看起来像是从浏览器中复制的。我尝试了许多库,如html2texthtml-textBeautifulSoup,但没有一个能得到我想要的结果。例如,以下 HTML:

在浏览器中看起来像这样:

但是当我使用html2text时,结果是

html-text的结果是

BeautifulSoup只是删除了标签:

好吧,我也尝试过soup.get_text('\n')soup.get_text('\n', strip=True)但无法获得正确的结果。

有没有人有解决问题的好方法?非常感谢。

0 投票
0 回答
35 浏览

javascript - 从 node.js 应用程序到达 gmail 时,长链接被破坏

我在服务器中有一个 html 模板,我将其转换为文本,以便我可以通过电子邮件将他发送给用户。问题是,当我对超链接使用 string.link() 函数时,它会以一定长度破坏它们。

示例:谷歌

邮件中的结果:href="http://www.google.com/1233423235252452424552525235235345">谷歌

没有找到任何原因..任何帮助?谢谢!

0 投票
0 回答
24 浏览

javascript - Docker Image 问题:TypeError: c.charCodeAt(...).toString(...).padStart is not a function for html-to-text

我在使用我在nodejs中开发的smtp进行nodemailer传输时遇到问题,它在本地服务器和正确发送的电子邮件中没有问题,但是当我将它们码头化并部署到AWS ECS时,API仍然返回状态200而没有任何错误但电子邮件不会发送给客户的电子邮件。我该如何克服这个问题?我也尝试了端口 25 和 465,但仍然没有向客户电子邮件发送任何内容。

起初我虽然是 nodemailer 问题,但是当我测试运行我的本地 docker 映像时,它返回一个错误

我想知道实际的错误是什么以及如何解决这个 html-to-text 错误?