问题标签 [word-count]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - Rails 中的字数?
假设我有一个带有标题和正文的博客模型。我如何显示正文中的单词数和标题中的字符数?我希望输出是这样的
标题: Lorem 身体: Lorem Lorem Lorem
这篇文章的字数为 3。
c# - 计算富文本框中所有单词的最有效方法是什么?
我正在编写一个文本编辑器,需要提供实时字数。现在我正在使用这个扩展方法:
我已将其设置为每十分之一秒在richtextbox 的文本上运行一次字数(如果选择开始与上次运行该方法时的开始不同)。问题是在处理非常长的文件时字数会变慢。为了解决这个问题,我正在考虑只在当前段落上运行字数,每次记录字数并将其与上次运行字数时的字数进行比较。然后它将两者之间的差异添加到总字数中。这样做会导致很多并发症(如果用户粘贴,如果用户删除段落等)这是提高我的字数的合乎逻辑的方法吗?或者有什么我不知道的东西会让它变得更好吗?
编辑:在不同的线程上运行字数统计会起作用吗?我对线程不太了解,将研究。
我使用的示例文本:
python - 如何计算复杂文档(.rtf、.doc、.odt 等)中的单词?
我正在尝试编写一个 Python 函数,给定文档文件的路径,返回该文档中的单词数。使用 .txt 文件很容易做到这一点,并且有一些工具可以让我一起破解对一些更复杂的文档格式的支持,但我想要一个真正全面的解决方案。
查看 OpenOffice.org 的 py-uno 脚本接口和支持的格式列表,将文档加载到无头 OOo 中并调用其字数统计函数似乎是理想的。但是,我找不到任何超出基本文档生成的 py-uno 教程或示例代码,甚至我发现的代码片段都已经过时了五年,不再起作用。
无论是否使用 OOo 和 Uno,我如何才能获得各种格式文档的可靠字数?
ms-word - 可靠地获取 .doc 文件的字符数
自动计算 .doc 或 .docx 文件中的字符和/或单词的可靠方法是什么?
唯一真正的要求是相当准确和相当可靠的计数。
它需要处理包含拉丁文字以外的其他内容的文档,因此在大多数情况下计算字符就足够了。
计数不一定需要与Word的匹配,但越接近越好。
由于有大量不同的应用程序可以生成 .doc 文件,因此无法对任何内容进行计数是可以的,但这种情况需要可捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须在至少 99% 的时间内达到至少 99% 的准确率。
我对所涉及的技术持开放态度,但可以在 *NIX 命令行上运行的东西将是非常受欢迎的。
有没有合理的解决方案?
hadoop - 使用 Hadoop MapReduce 排序字数
我对 MapReduce 非常陌生,我完成了一个 Hadoop 字数统计示例。
在该示例中,它生成未排序的字数文件(带有键值对)。那么是否可以通过将另一个 MapReduce 任务与之前的任务结合起来,按单词出现的数量对其进行排序?
ruby-on-rails - 验证一个字段不超过 n 个单词的最快方法是什么?
我有一个 Ruby-on-Rails 模型:
在不进入 C 的情况下,检查application_essay
包含不超过 500 个单词的最快方法是什么?您可以假设大多数论文至少 200 字,不太可能超过 5000 字,并且是英文的(或有时称为“商务英语”的伪英语)。只要您的分类对典型用户来说是显而易见的,您还可以将任何您想要的内容分类为“单词”。(注意:这里不是讨论什么是“典型用户”的地方:))
git - 量化 git diff 的变化量?
我将 git 用于一个稍微不寻常的目的——它在我写小说时存储我的文本。(我知道,我知道……令人讨厌。)
我正在尝试跟踪生产力,并希望衡量后续提交之间的差异程度。作者对“作品”的代理是“文字”,至少在创作阶段是这样。我不能使用直接字数统计,因为它忽略了编辑和压缩,这两个都是写作的重要部分。我想我想跟踪:
这将重复计算(单词已更改),但我可以接受。
输入一些魔法咒语并让 git 为任何两个修订报告这个距离度量会很棒。然而,git diffs 是补丁,即使你只在一行中旋转了一个字符,它也会显示整行;我不希望这样,特别是因为我的“行”是段落。理想情况下,我什至可以指定“单词”的含义(尽管 \W+ 可能是可以接受的)。
git-diff 是否有一个标志可以逐字给出差异?或者,是否有使用标准命令行工具来计算上述指标的解决方案?
php - 一个 PHP 库/类来计算各种语言的单词?
在不久的将来的某个时候,我将需要实现跨语言字数统计,或者如果这不可能,跨语言字符数统计。
字数是指对给定文本中包含的单词的准确计数,采用文本的语言。文本的语言由用户设置,并将被假定为正确的。
字符计数是指给定文本中包含的“可能在一个单词中”字符的计数,具有上述相同的语言信息。
我更喜欢前者,但我知道所涉及的困难。我也知道后者的计数要容易得多,但如果可能的话,我更喜欢前者。
如果我只需要看英语,我会很高兴,但我需要考虑这里的每一种语言,中文、韩语、英语、阿拉伯语、印地语等等。
我想知道 Stack Overflow 是否有关于从哪里开始寻找现有产品/方法以在 PHP 中执行此操作的任何线索,因为我是一个优秀的懒惰程序员*
一个简单的测试显示 str_word_count 与 set_locale 如何不起作用,以及 php.net 的 str_word_count 页面中的一个函数。
latex - 正确的 LaTeX 文档字数
我目前正在搜索对 LaTeX 文档进行正确字数统计的应用程序或脚本。
到目前为止,我只遇到过只适用于单个文件的脚本,但我想要的是一个可以安全地忽略 LaTeX 关键字并遍历链接文件的脚本......即跟随\include
和\input
链接以产生正确的字数整个文档。
我目前使用 vim,ggVGg CTRL+G
但显然它显示了当前文件的计数并且不会忽略 LaTeX 关键字。
有谁知道可以完成这项工作的任何脚本(或应用程序)?
vb.net - 计算字符串中的词频(最重要的词),不包括关键字
我想计算字符串中单词(不包括某些关键字)的频率并将它们排序为 DESC。那么,我该怎么做呢?
在以下字符串中...
排除关键字在哪里
输出应该像
PS不!我不是在重新设计谷歌!:)