问题标签 [word-count]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
10026 浏览

ruby - Rails 中的字数?

假设我有一个带有标题和正文的博客模型。我如何显示正文中的单词数和标题中的字符数?我希望输出是这样的

标题: Lorem 身体: Lorem Lorem Lorem

这篇文章的字数为 3。

0 投票
3 回答
4028 浏览

c# - 计算富文本框中所有单词的最有效方法是什么?

我正在编写一个文本编辑器,需要提供实时字数。现在我正在使用这个扩展方法:

我已将其设置为每十分之一秒在richtextbox 的文本上运行一次字数(如果选择开始与上次运行该方法时的开始不同)。问题是在处理非常长的文件时字数会变慢。为了解决这个问题,我正在考虑只在当前段落上运行字数,每次记录字数并将其与上次运行字数时的字数进行比较。然后它将两者之间的差异添加到总字数中。这样做会导致很多并发症(如果用户粘贴,如果用户删除段落等)这是提高我的字数的合乎逻辑的方法吗?或者有什么我不知道的东西会让它变得更好吗?

编辑:在不同的线程上运行字数统计会起作用吗?我对线程不太了解,将研究。

我使用的示例文本:

0 投票
2 回答
1376 浏览

python - 如何计算复杂文档(.rtf、.doc、.odt 等)中的单词?

我正在尝试编写一个 Python 函数,给定文档文件的路径,返回该文档中的单词数。使用 .txt 文件很容易做到这一点,并且有一些工具可以让我一起破解对一些更复杂的文档格式的支持,但我想要一个真正全面的解决方案。

查看 OpenOffice.org 的 py-uno 脚本接口和支持的格式列表,将文档加载到无头 OOo 中并调用其字数统计函数似乎是理想的。但是,我找不到任何超出基本文档生成的 py-uno 教程或示例代码,甚至我发现的代码片段都已经过时了五年,不再起作用。

无论是否使用 OOo 和 Uno,我如何才能获得各种格式文档的可靠字数?

0 投票
4 回答
1476 浏览

ms-word - 可靠地获取 .doc 文件的字符数

自动计算 .doc 或 .docx 文件中的字符和/或单词的可靠方法是什么?

唯一真正的要求是相当准确和相当可靠的计数。
它需要处理包含拉丁文字以外的其他内容的文档,因此在大多数情况下计算字符就足够了。
计数不一定需要与Word的匹配,但越接近越好。
由于有大量不同的应用程序可以生成 .doc 文件,因此无法对任何内容进行计数是可以的,但这种情况需要可捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须在至少 99% 的时间内达到至少 99% 的准确率。

我对所涉及的技术持开放态度,但可以在 *NIX 命令行上运行的东西将是非常受欢迎的。

有没有合理的解决方案?

0 投票
4 回答
20713 浏览

hadoop - 使用 Hadoop MapReduce 排序字数

我对 MapReduce 非常陌生,我完成了一个 Hadoop 字数统计示例。

在该示例中,它生成未排序的字数文件(带有键值对)。那么是否可以通过将另一个 MapReduce 任务与之前的任务结合起来,按单词出现的数量对其进行排序?

0 投票
6 回答
1147 浏览

ruby-on-rails - 验证一个字段不超过 n 个单词的最快方法是什么?

我有一个 Ruby-on-Rails 模型:

在不进入 C 的情况下,检查application_essay包含不超过 500 个单词的最快方法是什么?您可以假设大多数论文至少 200 字,不太可能超过 5000 字,并且是英文的(或有时称为“商务英语”的伪英语)。只要您的分类对典型用户来说是显而易见的,您还可以将任何您想要的内容分类为“单词”。(注意:这里不是讨论什么是“典型用户”的地方:))

0 投票
9 回答
7405 浏览

git - 量化 git diff 的变化量?

我将 git 用于一个稍微不寻常的目的——它在我写小说时存储我的文本。(我知道,我知道……令人讨厌。)

我正在尝试跟踪生产力,并希望衡量后续提交之间的差异程度。作者对“作品”的代理是“文字”,至少在创作阶段是这样。我不能使用直接字数统计,因为它忽略了编辑和压缩,这两个都是写作的重要部分。我想我想跟踪:

这将重复计算(单词已更改),但我可以接受。

输入一些魔法咒语并让 git 为任何两个修订报告这个距离度量会很棒。然而,git diffs 是补丁,即使你只在一行中旋转了一个字符,它也会显示整行;我不希望这样,特别是因为我的“行”是段落。理想情况下,我什至可以指定“单词”的含义(尽管 \W+ 可能是可以接受的)。

git-diff 是否有一个标志可以逐字给出差异?或者,是否有使用标准命令行工具来计算上述指标的解决方案?

0 投票
3 回答
3419 浏览

php - 一个 PHP 库/类来计算各种语言的单词?

在不久的将来的某个时候,我将需要实现跨语言字数统计,或者如果这不可能,跨语言字符数统计。

字数是指对给定文本中包含的单词的准确计数,采用文本的语言。文本的语言由用户设置,并将被假定为正确的。

字符计数是指给定文本中包含的“可能在一个单词中”字符的计数,具有上述相同的语言信息。

我更喜欢前者,但我知道所涉及的困难。我也知道后者的计数要容易得多,但如果可能的话,我更喜欢前者。

如果我只需要看英语,我会很高兴,但我需要考虑这里的每一种语言,中文、韩语、英语、阿拉伯语、印地语等等。

我想知道 Stack Overflow 是否有关于从哪里开始寻找现有产品/方法以在 PHP 中执行此操作的任何线索,因为我是一个优秀的懒惰程序员*

一个简单的测试显示 str_word_count 与 set_locale 如何不起作用,以及 php.net 的 str_word_count 页面中的一个函数。

* http://blogoscoped.com/archive/2005-08-24-n14.html

0 投票
9 回答
82572 浏览

latex - 正确的 LaTeX 文档字数

我目前正在搜索对 LaTeX 文档进行正确字数统计的应用程序或脚本。

到目前为止,我只遇到过只适用于单个文件的脚本,但我想要的是一个可以安全地忽略 LaTeX 关键字并遍历链接文件的脚本......即跟随\include\input链接以产生正确的字数整个文档。

我目前使用 vim,ggVGg CTRL+G但显然它显示了当前文件的计数并且不会忽略 LaTeX 关键字。

有谁知道可以完成这项工作的任何脚本(或应用程序)?

0 投票
2 回答
1657 浏览

vb.net - 计算字符串中的词频(最重要的词),不包括关键字

我想计算字符串中单词(不包括某些关键字)的频率并将它们排序为 DESC。那么,我该怎么做呢?

在以下字符串中...

排除关键字在哪里

输出应该像

PS不!我不是在重新设计谷歌!:)