“word-count”的相关标签问题

0 投票

6 回答

10026 浏览

ruby - Rails 中的字数？

假设我有一个带有标题和正文的博客模型。我如何显示正文中的单词数和标题中的字符数？我希望输出是这样的

标题: Lorem 身体: Lorem Lorem Lorem

这篇文章的字数为 3。

ruby word-count

2010-01-21T07:43:49.387

0 投票

3 回答

4028 浏览

我已将其设置为每十分之一秒在richtextbox 的文本上运行一次字数（如果选择开始与上次运行该方法时的开始不同）。问题是在处理非常长的文件时字数会变慢。为了解决这个问题，我正在考虑只在当前段落上运行字数，每次记录字数并将其与上次运行字数时的字数进行比较。然后它将两者之间的差异添加到总字数中。这样做会导致很多并发症（如果用户粘贴，如果用户删除段落等）这是提高我的字数的合乎逻辑的方法吗？或者有什么我不知道的东西会让它变得更好吗？

编辑：在不同的线程上运行字数统计会起作用吗？我对线程不太了解，将研究。

我使用的示例文本：

c#wpf performance richtextbox word-count

2010-02-09T01:32:45.177

0 投票

2 回答

1376 浏览

python - 如何计算复杂文档（.rtf、.doc、.odt 等）中的单词？

我正在尝试编写一个 Python 函数，给定文档文件的路径，返回该文档中的单词数。使用 .txt 文件很容易做到这一点，并且有一些工具可以让我一起破解对一些更复杂的文档格式的支持，但我想要一个真正全面的解决方案。

查看 OpenOffice.org 的 py-uno 脚本接口和支持的格式列表，将文档加载到无头 OOo 中并调用其字数统计函数似乎是理想的。但是，我找不到任何超出基本文档生成的 py-uno 教程或示例代码，甚至我发现的代码片段都已经过时了五年，不再起作用。

无论是否使用 OOo 和 Uno，我如何才能获得各种格式文档的可靠字数？

python document openoffice.org word-count

2010-02-13T07:52:55.310

0 投票

4 回答

1476 浏览

ms-word - 可靠地获取 .doc 文件的字符数

自动计算 .doc 或 .docx 文件中的字符和/或单词的可靠方法是什么？

唯一真正的要求是相当准确和相当可靠的计数。
它需要处理包含拉丁文字以外的其他内容的文档，因此在大多数情况下计算字符就足够了。
计数不一定需要与Word的匹配，但越接近越好。
由于有大量不同的应用程序可以生成 .doc 文件，因此无法对任何内容进行计数是可以的，但这种情况需要可捕获，因此我们知道计数可能不准确。对于所有其他情况，计数必须在至少 99% 的时间内达到至少 99% 的准确率。

我对所涉及的技术持开放态度，但可以在 *NIX 命令行上运行的东西将是非常受欢迎的。

有没有合理的解决方案？

ms-word ms-office word-count charactercount

2010-02-17T02:59:55.767

0 投票

4 回答

20713 浏览

hadoop - 使用 Hadoop MapReduce 排序字数

我对 MapReduce 非常陌生，我完成了一个 Hadoop 字数统计示例。

在该示例中，它生成未排序的字数文件（带有键值对）。那么是否可以通过将另一个 MapReduce 任务与之前的任务结合起来，按单词出现的数量对其进行排序？

hadoop mapreduce word-count parallel-processing

2010-03-31T05:54:21.150

0 投票

6 回答

1147 浏览

ruby-on-rails - 验证一个字段不超过 n 个单词的最快方法是什么？

我有一个 Ruby-on-Rails 模型：

在不进入 C 的情况下，检查application_essay包含不超过 500 个单词的最快方法是什么？您可以假设大多数论文至少 200 字，不太可能超过 5000 字，并且是英文的（或有时称为“商务英语”的伪英语）。只要您的分类对典型用户来说是显而易见的，您还可以将任何您想要的内容分类为“单词”。（注意：这里不是讨论什么是“典型用户”的地方:)）

ruby-on-rails ruby validation word-count

2010-05-04T01:43:32.160

0 投票

9 回答

7405 浏览

git - 量化 git diff 的变化量？

我将 git 用于一个稍微不寻常的目的——它在我写小说时存储我的文本。（我知道，我知道……令人讨厌。）

我正在尝试跟踪生产力，并希望衡量后续提交之间的差异程度。作者对“作品”的代理是“文字”，至少在创作阶段是这样。我不能使用直接字数统计，因为它忽略了编辑和压缩，这两个都是写作的重要部分。我想我想跟踪：

这将重复计算（单词已更改），但我可以接受。

输入一些魔法咒语并让 git 为任何两个修订报告这个距离度量会很棒。然而，git diffs 是补丁，即使你只在一行中旋转了一个字符，它也会显示整行；我不希望这样，特别是因为我的“行”是段落。理想情况下，我什至可以指定“单词”的含义（尽管 \W+ 可能是可以接受的）。

git-diff 是否有一个标志可以逐字给出差异？或者，是否有使用标准命令行工具来计算上述指标的解决方案？

git word-count

2010-05-20T13:50:00.750

0 投票

3 回答

3419 浏览

php - 一个 PHP 库/类来计算各种语言的单词？

在不久的将来的某个时候，我将需要实现跨语言字数统计，或者如果这不可能，跨语言字符数统计。

字数是指对给定文本中包含的单词的准确计数，采用文本的语言。文本的语言由用户设置，并将被假定为正确的。

字符计数是指给定文本中包含的“可能在一个单词中”字符的计数，具有上述相同的语言信息。

我更喜欢前者，但我知道所涉及的困难。我也知道后者的计数要容易得多，但如果可能的话，我更喜欢前者。

如果我只需要看英语，我会很高兴，但我需要考虑这里的每一种语言，中文、韩语、英语、阿拉伯语、印地语等等。

我想知道 Stack Overflow 是否有关于从哪里开始寻找现有产品/方法以在 PHP 中执行此操作的任何线索，因为我是一个优秀的懒惰程序员*

一个简单的测试显示 str_word_count 与 set_locale 如何不起作用，以及 php.net 的 str_word_count 页面中的一个函数。

* http://blogoscoped.com/archive/2005-08-24-n14.html

php nlp utf-8 word-count

2010-05-29T15:02:38.680

0 投票

9 回答

82572 浏览

latex - 正确的 LaTeX 文档字数

我目前正在搜索对 LaTeX 文档进行正确字数统计的应用程序或脚本。

到目前为止，我只遇到过只适用于单个文件的脚本，但我想要的是一个可以安全地忽略 LaTeX 关键字并遍历链接文件的脚本......即跟随\include和\input链接以产生正确的字数整个文档。

我目前使用 vim，ggVGg CTRL+G但显然它显示了当前文件的计数并且不会忽略 LaTeX 关键字。

有谁知道可以完成这项工作的任何脚本（或应用程序）？

latex word-count

2010-06-04T14:20:21.157

0 投票

2 回答

1657 浏览

vb.net - 计算字符串中的词频（最重要的词），不包括关键字

我想计算字符串中单词（不包括某些关键字）的频率并将它们排序为 DESC。那么，我该怎么做呢？

在以下字符串中...

排除关键字在哪里

输出应该像

PS不！我不是在重新设计谷歌！:)

vb.net linq count word-count word-frequency

2010-08-31T09:34:57.617

问题标签 [word-count]

ruby - Rails 中的字数？

c# - 计算富文本框中所有单词的最有效方法是什么？

python - 如何计算复杂文档（.rtf、.doc、.odt 等）中的单词？

ms-word - 可靠地获取 .doc 文件的字符数

hadoop - 使用 Hadoop MapReduce 排序字数

ruby-on-rails - 验证一个字段不超过 n 个单词的最快方法是什么？

git - 量化 git diff 的变化量？

php - 一个 PHP 库/类来计算各种语言的单词？

latex - 正确的 LaTeX 文档字数

vb.net - 计算字符串中的词频（最重要的词），不包括关键字

问题标签 [word-count]

Reference