问题标签 [word-count]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
programming-languages - 唯一字数
这是一个适用于(可能)任何高级编程语言的通用问题。情况如下:
假设我有一个字符串数组。比如说,我设法将一个短篇小说中的 500 000 个字符串放入一个数组中(假设您没有输入格式的选项)。因此,很可能会有任意数量的重复项。
我想获取这个字符串数组并创建另一个数组,其中包含该数组的唯一子集(?)(即:没有重复项)。在这种情况下,输入和输出都必须是数组,因此可能会限制您使用各种选项。
性能方面,最快的方法是什么?我目前正在使用线性搜索来检查一个单词是否已经存在,但由于它是一个线性搜索,我觉得可能有更快的方法,特别是如果我有不合理数量的字符串可以使用。像一本更大的小说!
c - How to test word count program if there is any uncovered bugs?
I just revisited the classic C textbook K&R. And read the exercise 1-11:
How would you test the word count program? What kinds of input are most likely to uncover bugs if there are any?
Actually, I only have a basic idea to manually count an existing paragraph to get the exact word numbers and compare it with the result word count program calculates.
Is there anything I've missed? And what is the trick of the test?
EDIT
Answers summary:
Semantic definition of word, some special cases:
- link word: "cat-walk"
- small word: a, b,c
- biiiiiig words: "a fooooooooo<40MILLIONLETTERS>ooooooo a" has 3 words
boundary conditions:
- Texts with multiple spaces between words.
- Texts bigger than 2GB
- Words which contain a dash but no whitespace.
- Non-ascii words.
- Files in some different encoding (if your program supports that)
- Characters which are surrounded by whitespace but do not contain any word characters (e.g. "hello - world")
- Texts without any words
- Texts with all words on a single line
hadoop - Hadoop wordcount 无法运行 - 需要帮助解码 hadoop 错误消息
我需要一些帮助来弄清楚我的工作失败的原因。我构建了一个单节点集群只是为了尝试一下。我按照这里的例子。
一切似乎都正常工作。我格式化了namenode,并且能够通过web界面连接到jobtracker、datanode和namenode。我能够启动和停止所有的 hadoop 服务。
但是,当我尝试运行该wordcount
示例时,我得到了这个:
我在本地文件系统上创建了目录。
我还修改了core-site.xml
:
当我格式化名称节点时,它会成功地在本地和 HDFS 上创建子目录。
当我查看失败wordcount
输出的结果时,错误消息抱怨 I/O 错误,存档
/app/hadoop/tmp/mapred/local/ttprivate/taskTracker/hadoop/jobcache/
job_201105161023_0002/jobToken
我做了一些故障排除,可以jobToken
在本地文件系统上浏览到这个文件,没问题。内容类似于HDTS MapReduce.job 201105161023_0002
那么这是权限问题吗?我让 hadoop 进程用户能够写入所有子目录并且它能够创建文件。那么还有什么可能是错的呢?
命令行的一些更详细的输出:
objective-c - Objective-C:-[NSString wordCount]
以下NSString
类别方法的简单实现是什么,它返回中的单词数self
,其中单词由任意数量的连续空格或换行符分隔?此外,字符串将少于 140 个字符,因此在这种情况下,我更喜欢简单性和可读性,但会牺牲一点性能。
我找到了以下解决方案:
但是,没有更简单的方法吗?
c++ - Wordcount C++ Hadoop 管道不起作用
我正在尝试在 C++ 中运行 wordcount 的示例,如此链接描述的方法: 在 C++ 中运行 WordCount 程序。编译工作正常,但是当我尝试运行我的程序时,出现了一个错误:
bin/hadoop 管道 -conf ../dev/word.xml -input testtile.txt -output wordcount-out
11/06/06 14:23:40 WARN mapred.JobClient:没有设置作业 jar 文件。可能找不到用户类
。请参阅 JobConf(Class) 或 JobConf#setJar(String)。
11/06/06 14:23:40 INFO mapred.FileInputFormat:要处理的总输入路径:1
11/06/06 14:23:40 INFO mapred.JobClient:正在运行的作业:job_201106061207_0007
11/06/06 14:23: 41 信息 mapred.JobClient:映射 0% 减少 0%
11/06/06 14:23:53 信息 mapred.JobClient:任务 ID:尝试_201106061207_0007_m_000000_0,状态:失败
java.io.IOException
在 org.apache.hadoop.mapred.pipes.OutputHandler.waitForAuthentication(OutputHandler.java:188) 在 org.apache.hadoop.mapred.pipes.Application.waitForAuthentication(Application.java:194) 在 org.apache.hadoop.mapred .pipes.Application.(Application.java:149) 在 org.apache.hadoop.mapred.pipes.PipesMapRunner.run(PipesMapRunner.java:68) 在 org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java: 435) 在 org.apache.hadoop.mapred.MapTask.run(MapTask.java:371) 在 org.apache.hadoop.mapred.Child$4.run(Child.java:259) 在 java.security.AccessController.doPrivileged( Native Method) at javax.security.auth.Subject.doAs(Subject.java:416) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059) at org.apache.hadoop.mapred.Child。主要(儿童.java:253)
尝试_201106061207_0007_m_000000_0:服务器无法进行身份验证。退出
我在两个节点上的 Fedora 上运行 Hadoop,我按照该链接的配置说明进行操作:在多节点集群上运行 Hadoop。我使用该命令尝试了 Hadoop 的 wordcount 示例:
bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount testtile.txt wordcount-out
该命令工作正常。这就是为什么我不明白为什么我的程序不起作用。所以我希望有人知道我做错了什么,或者是否有人已经解决了这个错误。
vba - 用 VBA 中的 latin az 对应项和字数替换所有非拉丁字符
我正在尝试在 VBA 中编写一个脚本,它将:
用对应的拉丁字符替换所有 É 和其他类似字符。
删除所有非字母数字
字符。删除重复的间距
然后字数字符串
我已经弄清楚我可以在“”上拆分字符串并计算元素以获取字数......但我正在努力解决剩下的问题。非常感谢帮助。
jquery - 没有最大数量的jQuery单词计数器
您能否建议 jquery 中没有maxcount
选项的任何单词计数器?
我找了很多插件,但它们都限制了最大字数。
我想要一个带有两个参数的函数,textarea_id
并且span_id_of_#ofwords
只是简单地显示 textarea 中的单词数。我可以修改插件,但我宁愿不这样做。
谢谢。
language-agnostic - Go中的并行不同字数
Jakob Østergaard提出了这一挑战:
编写一个程序,从标准输入读取文本,并返回(打印)在文本中找到的不同单词的总数。
我们如何通过并行编程来应对这一挑战(最好用 Go 语言,但用英文描述就足够了)?
jquery - jQuery中的if语句问题
我在 jQuery 中的 if 语句似乎破坏了这段代码,我不知道为什么:(这里有一些代码:
无需 if 语句即可完美运行。但是一旦我添加了一些条件,它就会中断并且在#limit 中什么也不显示。
谢谢
hadoop - 在 Hadoop 上执行 Cassandra WordCount 时出错:java.lang.NoSuchMethodError: org.apache.thrift.meta_data.FieldValueMetaData。(BZ)V
尝试从 cassandra 执行 WordCount 示例并出现错误:
线程“主”java.lang.NoSuchMethodError 中的异常:org.apache.cassandra.thrift.SlicePredicate.(SlicePredicate.java:132) 的 org.apache.thrift.meta_data.FieldValueMetaData.(BZ)V 在 WordCount.run(WordCount .java:199) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 WordCount.main(WordCount.java:74) 在 sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 在 sun。 reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop .util.RunJar.main(RunJar.java:186)
先感谢您!