问题标签 [html-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - 找不到 htmlToText
我正在尝试运行几个月前编写的 R 脚本。我想下载在线信息,这就是我使用 htmlToText 函数的原因。即使我包含了 RCurl 和 XML 包,R 也找不到这个函数。
为什么会这样,我该如何解决这个错误?
最佳皮特
jsoup - 将包含 HTML 的 txt 转换为纯文本
我正在尝试找到一种工具来将包含 html 的 TXT 文件解析为纯文本,同时保持其格式化、列表等
我已经能够找到这个http://jsoup.org/apidocs/org/jsoup/examples/HtmlToPlainText.html 完美的作品。唯一的问题是它读取的是 URL,而不是文件。我尝试对代码进行一些更改但没有成功
有人可以指出我如何让它读取我的 txt 文件作为输入的正确方向吗?
.net - 如何在保留选项卡和其他有效的纯文本布局的同时将 HTML 转换为纯文本
WRT这个解决方案,请问我们如何调整它以保留 选项卡和其他有效的纯文本布局
参考解决方案:
java - 而不是在 docx 中呈现表格和其他 html 标记,而是使用 docx4j-ImportXHTML 将它们保存为纯文本
我想将 html 代码呈现给 docx。而不是呈现html(即表格格式的表格),它只是将html代码作为纯文本写入其中。我正在使用 docx4j-ImportXHTML jar。我使用了此处的代码并对其进行了修改以保存在文件中。
我究竟做错了什么?
java - 在 java 中使用 docx4j 将文本替换为 dotx 文件中的 HTML 代码
我有一些带有占位符的文档模板(.dotx 文件)。我需要阅读该模板并将占位符替换为来自数据库列的实际文本。我可以使用 docx4j 的 WordprocessingMLPackage 来做到这一点,但问题是,在某些数据库列中有 HTML 代码。这是来自富文本编辑器字段的文本。当我尝试在 word 文档模板中替换此文本时,我将纯 html 代码复制到文档中。我想将该 html 代码转换为实际的 html 文本并写入文档。我怎样才能做到这一点?
angular - 无法在 TinyMCE 文本区域上显示我的 HTML 内容
我正在尝试通过使用 tinymce 而不是文本区域在我的应用程序模式上创建富文本编辑器。但我的 HTML 代码无法在富文本的内容区域显示为文本。我正在使用 Angular 2。
任何帮助都会得到帮助
html - 如何将 HTML 转换为格式化的 Text,使间距、表格边框、元素定位等布局保持不变?
如何将HTML转换为格式化的Text,让间距、表格边框、元素定位等布局保持原样?有没有相同的工具?
已经尝试了以下几个选项,但输出格式不符合要求:
- TxtControl 转换
- PythonCom 转换
问题:将 HTML 表格转换为单元格之间的间距导致单元格内容移动到下一行,从而干扰格式。预期输出为:表格行单元格内容应在同一行中,并且文本文件中的边框应完好无损。
此外,PDF/RTF 到 TEXT 的转换也可以工作,只是格式应该是完整的。
附上屏幕截图以更清楚地了解要求。 输入 HTML 屏幕截图
或者,有没有办法逐个字符地读取 HTML 并写入文本文件,这样布局在文本输出中不会改变。
python - 将 HTML 转换为看起来像是使用 Python 从浏览器复制的纯文本
我想在 Python 中将 HTML 转换为纯文本,我希望结果看起来像是从浏览器中复制的。我尝试了许多库,如html2text、html-text和BeautifulSoup,但没有一个能得到我想要的结果。例如,以下 HTML:
在浏览器中看起来像这样:
但是当我使用html2text时,结果是
html-text的结果是
BeautifulSoup只是删除了标签:
好吧,我也尝试过soup.get_text('\n')
,soup.get_text('\n', strip=True)
但无法获得正确的结果。
有没有人有解决问题的好方法?非常感谢。
javascript - 从 node.js 应用程序到达 gmail 时,长链接被破坏
我在服务器中有一个 html 模板,我将其转换为文本,以便我可以通过电子邮件将他发送给用户。问题是,当我对超链接使用 string.link() 函数时,它会以一定长度破坏它们。
示例:谷歌
邮件中的结果:href="http://www.google.com/1233423235252452424552525235235345">谷歌
没有找到任何原因..任何帮助?谢谢!
javascript - Docker Image 问题:TypeError: c.charCodeAt(...).toString(...).padStart is not a function for html-to-text
我在使用我在nodejs中开发的smtp进行nodemailer传输时遇到问题,它在本地服务器和正确发送的电子邮件中没有问题,但是当我将它们码头化并部署到AWS ECS时,API仍然返回状态200而没有任何错误但电子邮件不会发送给客户的电子邮件。我该如何克服这个问题?我也尝试了端口 25 和 465,但仍然没有向客户电子邮件发送任何内容。
起初我虽然是 nodemailer 问题,但是当我测试运行我的本地 docker 映像时,它返回一个错误
我想知道实际的错误是什么以及如何解决这个 html-to-text 错误?