问题标签 [html-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - 将 HTML 转换为文本的 DOT NET 代码
我正在创建一个小算法来从网站获取文本..然后找到答案(完成后将发布脚本)。
为此,我需要将所有 HTML 代码转换为简单易读的英文文本。
我已经手动删除了所有 html 标签,但有些 css 条目很难摆脱。关于如何将 html 转换为纯英文文本的任何简单想法?
谢谢。
c# - 在按钮上提供 Word 文档单击 C# asp.net 页面
当代码放置 onClick 事件时,它不显示打开保存对话框,也没有抛出异常,但是 onLoad 事件可以正常工作,打开一个打开保存对话框来保存一个 word 文件。
python - 仅使用 Python 标准库的 html 到文本转换
我正在寻找将 HTML 转换为文本的最佳方法,仅使用 Python 2.7.x 标准库中的模块。(即,BeautifulSoup
不等)
通过 HTML 到文本的转换,我的意思是lynx -dump
. 事实上,只需智能地摆脱 HTML 标记,并将所有 HTML 实体转换为 ASCII(或 UTF8 编码的 unicode)就足够了。
请不要基于正则表达式的答案。(正则表达式不能胜任这项任务。)
谢谢!
ruby-on-rails - 将 HTML 转换为正确的纯文本?
有什么方法可以将 HTML 转换为正确的纯文本?我尝试了从 raw 到 sanitize 的所有方法,甚至是带有 text_part 方法的 Mail gem,它应该可以做到这一点,但对我不起作用。
到目前为止,我最好的镜头是strip_tags(strip_links(resource.body))
but<p>
等<ul>
没有正确转换。
这或多或少是我在 HTML 中所拥有的:
转换为类似的东西
任何想法?
javascript - 将 HTML 元素转换为字符串/对象
我正在创建一个基本上有一个表格和一个搜索栏的 AngularJS 应用程序。该表是位置,当您单击链接时,它应该通过嵌入式 Google 地图将您带到所述位置。当我尝试将地图平移到新位置时,我遇到了地图问题。这是应用程序的外观:
无论如何都可以单击名称/坐标(首选名称,以便我可以删除坐标列)并将坐标转换为可用于在 Google 地图上设置位置的字符串/对象?
提前致谢!!!
ruby - Rails 3:simple_format 不打印“”内的文本
我在我的rails应用程序中使用simple_format将带有html标签的文本转换为纯文本,一切正常,但是simple_format没有显示“”引号内的文本
这是我的 Rails 代码,我也使用了 sanitize: false 但它不起作用。该怎么办?
python-2.7 - 如何将多个html文件转换为文本文件?
大家好,我有一个文件夹,里面装满了要转换为文本文件的 html 文件。我在 ubuntu 平台上工作,不幸的是 lynx --dump 没有为我安装。有没有其他方法可以将 html 文件转换为文本文件?请帮忙!提前致谢。
python - 如何使用 python 从 beautifulsoup 输出中删除所有对齐和缩进?
我正在尝试从 HTML url 从许多不同的表中获取信息,而没有任何 HTML 缩进/制表符格式。我使用 get_text 来生成我想要的内容,但它会打印出很多空白和制表符。我已经尝试过 .strip ,但这并没有达到我想要的效果。
这是我正在使用的python脚本:
最后,我想创建一个活动日历的 csv,但首先我想创建一个 .txt 或不需要太多手动清理的东西。
任何帮助表示赞赏。
html - 从 html 中获取特定内容并在 Perl 中打印到 txt 文件
我有一个包含论文 ID 和论文的 html 文件。所以我想按顺序打印这些 ID 和文件。这是 html 文件和示例输出。
我想使用 perl 创建的 txt 文件是:
等等..
到目前为止,我已经编写了这段代码,但我不明白为什么它不起作用。它不会在屏幕和文本文件上打印任何内容。任何帮助将不胜感激。谢谢!
node.js - node.js \ 为什么我得到 RangeError: Maximum call stack size exceeded
以下程序的目的是抓取 CNN,并将其所有文本写入单个文件(使用几个第三方)
我明白了
如何解决这个问题,我该如何绕过它?有没有办法可以“释放”内存?如何?