问题标签 [html-to-text]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2166 浏览

.net - 将 HTML 转换为文本的 DOT NET 代码

我正在创建一个小算法来从网站获取文本..然后找到答案(完成后将发布脚本)。

为此,我需要将所有 HTML 代码转换为简单易读的英文文本。

我已经手动删除了所有 html 标签,但有些 css 条目很难摆脱。关于如何将 html 转换为纯英文文本的任何简单想法?

谢谢。

0 投票
3 回答
2110 浏览

c# - 在按钮上提供 Word 文档单击 C# asp.net 页面

当代码放置 onClick 事件时,它不显示打开保存对话框,也没有抛出异常,但是 onLoad 事件可以正常工作,打开一个打开保存对话框来保存一个 word 文件。

0 投票
3 回答
1507 浏览

python - 仅使用 Python 标准库的 html 到文本转换

我正在寻找将 HTML 转换为文本的最佳方法,仅使用 Python 2.7.x 标准库中的模块。(即,BeautifulSoup不等)

通过 HTML 到文本的转换,我的意思是lynx -dump. 事实上,只需智能地摆脱 HTML 标记,并将所有 HTML 实体转换为 ASCII(或 UTF8 编码的 unicode)就足够了。

请不要基于正则表达式的答案。(正则表达式不能胜任这项任务。)

谢谢!

0 投票
2 回答
12601 浏览

ruby-on-rails - 将 HTML 转换为正确的纯文本?

有什么方法可以将 HTML 转换为正确的纯文本?我尝试了从 raw 到 sanitize 的所有方法,甚至是带有 text_part 方法的 Mail gem,它应该可以做到这一点,但对我不起作用。

到目前为止,我最好的镜头是strip_tags(strip_links(resource.body))but<p><ul>没有正确转换。

这或多或少是我在 HTML 中所拥有的:

转换为类似的东西

任何想法?

0 投票
0 回答
69 浏览

javascript - 将 HTML 元素转换为字符串/对象

我正在创建一个基本上有一个表格和一个搜索栏的 AngularJS 应用程序。该表是位置,当您单击链接时,它应该通过嵌入式 Google 地图将您带到所述位置。当我尝试将地图平移到新位置时,我遇到了地图问题。这是应用程序的外观:网站搜索应用

无论如何都可以单击名称/坐标(首选名称,以便我可以删除坐标列)并将坐标转换为可用于在 Google 地图上设置位置的字符串/对象?

提前致谢!!!

0 投票
0 回答
234 浏览

ruby - Rails 3:simple_format 不打印“”内的文本

我在我的rails应用程序中使用simple_format将带有html标签的文本转换为纯文本,一切正常,但是simple_format没有显示“”引号内的文本

这是我的 Rails 代码,我也使用了 sanitize: false 但它不起作用。该怎么办?

0 投票
1 回答
927 浏览

python-2.7 - 如何将多个html文件转换为文本文件?

大家好,我有一个文件夹,里面装满了要转换为文本文件的 html 文件。我在 ubuntu 平台上工作,不幸的是 lynx --dump 没有为我安装。有没有其他方法可以将 html 文件转换为文本文件?请帮忙!提前致谢。

0 投票
1 回答
1165 浏览

python - 如何使用 python 从 beautifulsoup 输出中删除所有对齐和缩进?

我正在尝试从 HTML url 从许多不同的表中获取信息,而没有任何 HTML 缩进/制表符格式。我使用 get_text 来生成我想要的内容,但它会打印出很多空白和制表符。我已经尝试过 .strip ,但这并没有达到我想要的效果。

这是我正在使用的python脚本:

最后,我想创建一个活动日历的 csv,但首先我想创建一个 .txt 或不需要太多手动清理的东西。

任何帮助表示赞赏。

0 投票
3 回答
175 浏览

html - 从 html 中获取特定内容并在 Perl 中打印到 txt 文件

我有一个包含论文 ID 和论文的 html 文件。所以我想按顺序打印这些 ID 和文件。这是 html 文件和示例输出。

我想使用 perl 创建的 txt 文件是:

等等..

到目前为止,我已经编写了这段代码,但我不明白为什么它不起作用。它不会在屏幕和文本文件上打印任何内容。任何帮助将不胜感激。谢谢!

0 投票
1 回答
893 浏览

node.js - node.js \ 为什么我得到 RangeError: Maximum call stack size exceeded

以下程序的目的是抓取 CNN,并将其所有文本写入单个文件(使用几个第三方)

我明白了

如何解决这个问题,我该如何绕过它?有没有办法可以“释放”内存?如何?