问题标签 [text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bash - 从命令行将文本转换为 7 位 ASCII
我在 OS X 10.5.5 上(尽管我猜这并不重要)
我有一组带有花哨字符的文本文件,例如双反引号、省略号(“...”)在一个字符中等等。
我需要将这些文件转换为良好的老式纯 7 位 ASCII,最好不要丢失字符含义(即,将这些省略号转换为三个句点,将反引号转换为通常的 "s 等)。
请建议一些智能命令行(bash)工具/脚本来做到这一点。
unicode - 当我的文本显示为框时是什么意思?
我正在尝试使用(例如)Windows GDI 在我的程序中显示一些文本,并且某些 unicode 字符显示为框?怎么了?
另请参阅:当我的文本显示为问号时,这意味着什么?
unicode - 我的文字显示为问号是什么意思?
我正在尝试使用(比如说)Windows GDI 在我的程序中显示一些文本,并且一些 unicode 字符显示为问号?怎么了?
另请参阅:当我的文本显示为框时是什么意思?
algorithm - 用于文本分析的算法或库,特别是:主要词、跨文本的短语和文本集合
我正在做一个项目,我需要分析一页文本和一组文本来确定主导词。我想知道是否有一个库(首选 c# 或 java)可以为我处理繁重的工作。如果没有,是否有一种或多种算法可以实现我的以下目标。
我想做的类似于从您在网络上找到的 url 或 rss 提要构建的词云,除了我不想要可视化。它们一直用于分析总统候选人的演讲,以了解主题或最常用的词是什么。
复杂之处在于我需要对数千个短文档执行此操作,然后是这些文档的集合或类别。
我最初的计划是解析文档,然后过滤常用词 - of、the、he、she 等。然后计算剩余词在文本中出现的次数(以及整个集合/类别)。
问题是将来我想处理词干、复数形式等。我也想看看有没有办法识别重要的短语。(而不是一个单词的计数,一个短语的计数是2-3个单词一起)
任何有关策略、库或算法的指导都将受到赞赏。
string - 在 Excel 中将时间字段转换为字符串
我有一个完整的 Excel 表。
它们的格式如下:1:00:15
但是,如果我将单元格上的格式更改为文本,它们将更改为时间的基础数字表示:0.041840278
如何将单元格转换为文本单元格但仍有时间?
html - HTML 中的软连字符(vs. )
您如何解决网页上的软连字符问题?在文本中可能有很长的单词,您可能想用连字符换行。但是您不希望连字符显示整个单词是否在同一行。
根据这个页面 <wbr>
的评论是一个非标准的“网景发明的标签汤”。似乎­
在标准合规性方面也存在问题。似乎没有办法为所有浏览器找到可行的解决方案。
你处理软连字符的方式是什么,你为什么选择它?是否有首选解决方案或最佳实践?
在此处 查看相关的 SO 讨论。
pdf - 删除多个 PDF 文件的密码
所以我有大量的 PDF 文件需要从中提取文本。这些文件是加密的,但我知道它们的密码。我正在寻找一种方法来自动化提取文本的过程。
我可以在 Acrobat Professional 中手动打开文件,通过输入密码删除安全性,然后另存为 .txt 文件。但是没有办法通过批处理 600 个文件来自动化它。
我正在寻找一些工具来帮助解决这个问题。我很擅长 Perl,所以我尝试了 CPAN 的各种 PDF 处理模块,但它们无法读取加密的文档。有人对此有任何解决方案吗?
macos - OS X 文件复制默认转换文本编码
我工作区中的所有 PHP 文件都以Unicode (UTF-8, no BOM)编码。我经常复制现有的源文件以用作新脚本的基础。总是(使用路径查找器或原始查找器),OS X 会将重复文件的编码转换为Western (Mac OS Roman)。
复制文本文件时,有什么方法可以使 OS X 正常运行而不转换文本编码?或者让它对所有扩展名为 .php 的文件默认使用特定的文本编码(西方除外!)?
text - 如何检测具有一定模糊性的重复文本
前段时间,我使用Text::DeDupe编写了一个小脚本来删除重复的博客文章,然后才不得不关注它们。
在阅读了实现所依据的 Web 论文的句法聚类之后,我希望能够找到重叠的文档(例如,与全文相对的博客片段,也许还有引号)。
您是否知道在编写自己的 C、C++ 或 perl 中我可以尝试的任何其他实现?
c# - 从 Web 浏览器控件中检索选定的文本
这是我想做的事情:
从我使用网络浏览器控件拉出的网页中选择文本。在仍然选择此文本时单击按钮后,我希望弹出一个消息框,显示用户突出显示的文本。如何让这个功能在我的 wpf 应用程序中工作?
我认为我使用 mshtml 走在正确的轨道上,但我收到一条错误消息:
对 COM 组件的调用已返回错误 HRESULT E_FAIL。
即使我在文档上尝试一些小的操作(例如更改标题),也会发生此错误。
代码如下: