“find-occurrences”的相关标签问题

0 投票

1 回答

93 浏览

python - 是否可以在 Python 的两个数据集中对字符串出现的重要性进行测试

我有两组数据都来自不同的来源。两组数据都包含出现频率的单词。我想检查两个数据集中是否存在某个单词，如果存在，是否可以在统计上执行某种显着性测试以证明该单词是显着的。

如果单词“apple”出现在两个数据集（dict1 和 dict2）中，则计算单词 apple 的显着性检验。

2014-01-03T03:04:58.987

0 投票

1 回答

119 浏览

max - 在 PIG 的元组列表中查找最大出现名称

我有一个文件：

我想要名字出现最多的答案，即 max (Scott,6)

max apache-pig find-occurrences

2014-01-19T20:01:14.503

0 投票

7 回答

26026 浏览

java - 计算数组中元素的出现次数？（爪哇）

我一直在努力试图找出这个算法大约 6 个小时，但似乎无法提出解决方案。我正在尝试计算数组中元素的出现次数，并且可能还有两个单独的数组。一个用于唯一实例，一个用于这些实例发生的次数。我在这里发现了一些关于数组列表和 hashMaps 的其他想法，但我只能使用数组。

例如，我有这个数组（已经排序）：

我正在尝试为实例创建一个数组，所以：

最后，这些实例发生了多少次：

这是我到目前为止的代码：

这是我所有尝试后的所有代码。

java arrays elements find-occurrences

2014-01-20T07:27:53.507

0 投票

1 回答

63 浏览

r - 根据条件获取值的出现

在发布这个问题之前，我已经在几个问题中搜索了类似的东西，但我找不到我要找的东西。如果这篇文章是重复的，那么我很抱歉，如果您能将我转发到正确的问题，我将不胜感激。

我有以下数据：

我“只是”希望获得具有最大值的行的列名。我完成了这项任务

实际上，由于有两列 (c & d[6:10]) 符合最大值的条件，我真正想要获得的是：

所以，由于 which.max 的行为只允许（至少在我看来）只获得第一个元素，我想出了一个非常复杂的解决方案。查找每行的重复元素，然后，如果这些索引中的任何一个与 which.max 代码中的索引匹配，则将其更改为“double”。或多或少是这样的：

再次感谢任何提示！

r max find-occurrences

2014-01-24T09:59:50.620

0 投票

2 回答

3997 浏览

sql - SQL查询查找表中出现次数最多的值而不嵌套

我正在研究以下模式（粗体文本代表 pk，“：”代表引用表）：

用户（用户名，姓名，姓氏）；

产品（id，名称，数量）；

购买（用户：用户，产品：产品，日期和时间，购买数量）；

我想查找购买次数最多的用户的姓名和姓氏。

首先，我使用嵌套查询找出每个用户的购买次数，然后选择购买 >= ALL 这些值的用户：

是否有另一种方法可以在不使用嵌套查询的情况下实现相同的目标？

提前感谢您的宝贵时间。

sql nested max find-occurrences

2014-01-31T23:28:07.460

0 投票

1 回答

138 浏览

data-structures - 长尾分布中出现计数的数据结构

我有一个很大的元素列表（数千万）。我正在尝试计算这些元素的几个子集的出现次数。发生分布是长尾的。

数据结构目前看起来像这样（以 OCaml 风格）：

Element_stat 当前使用哈希表，其中键是每个元素，值是整数。但是，这是低效的，因为当许多元素出现一次时，出现哈希表会多次调整大小。我无法通过设置较大的初始大小来避免调整出现哈希表的大小，因为实际上有很多 element_stat 实例（stat 中哈希表的大小很大）。

我想知道这个用例是否有更有效的（内存方面和/或插入方面）数据结构。我发现了很多现有的数据结构，例如 trie、基数树、Judy 数组。但是我很难理解它们的差异以及它们是否适合我的问题。

data-structures ocaml hashtable trie find-occurrences

2014-02-06T03:13:43.337

0 投票

2 回答

81 浏览

sql - 如何计算作为字符串和整数连接结果的列的出现次数

我表中的数据如下所示：

我必须： 1. 连接：AUDTORG 和 SEQUENCENO 2. 计算连接字段 NewID 的出现次数。

这是我正在寻找的结果：

这是我尝试过的代码：

所有行必须保留。

sql sql-server count concatenation find-occurrences

2014-02-06T18:24:38.573

0 投票

1 回答

1230 浏览

ruby - 如何计算Ruby中文本文件中单词的出现次数

我想知道如何 1) 获取一个 txt 文件作为输入。2）计算一个或多个单词出现的次数！例如，说我想计算在文本文件中找到好、坏的次数并打印出来！我将如何使用 RUBY 做到这一点？

ruby find-occurrences

2014-03-13T05:17:55.903

0 投票

1 回答

126 浏览

regex - Java Regex 查找给定的字符串是否包含一组字符，这些字符的出现顺序相同。

我们需要 Java 正则表达式来查找给定的字符串是否包含一组按其出现顺序相同的字符。

例如，如果给定的字符串是"TYPEWRITER"，

以下字符串应返回匹配项：

"YERT", "TWRR"& "PEWRR"(按出现顺序逐个字符匹配),

但不是

"YERW"或"YERX"（这包含给定字符串中不存在的字符或与出现顺序不匹配的字符）。

这可以通过在 for 循环中逐个字符匹配来完成，但这会更耗时。对此或任何指针的正则表达式将不胜感激。

regex string contains find-occurrences

2014-03-14T04:22:00.083

0 投票

1 回答

83 浏览

performance - 加快寻找元素的累积出现

我正在尝试提高我的代码的性能。代码基本上计算L_total(1x2640) 的值，并通过从另一个名为L_CN(1320x6) 的变量中获取数据来完成。我还有colindexes矩阵（2640x3），它存储要查看的行的值L_CN。

所以，这是怎么回事，代码着眼于colindexes获取行数据。Saycolindexes具有以下形式：

该程序将L_total(1)使用L_CN(55,1) + L_CN(65,1) + L_CN(75,1). 这里的第一个索引是指从colindexes矩阵中获得的行号。第二个索引表示到目前为止这些行号的出现次数。因此，当我们计算时L_total(2)，它将是L_CN(68,1) + L_CN(75,2) + L_CN(85,1)。这里L_CN(75,2)发生是因为L_CN(75,1)以前使用过。

要计算整个L_total矩阵，下面的代码效果很好。它通过在名为 (2640x1) 的变量中增加相应索引来存储每个索引的出现次数list，从而计算L_total. 它在 0.023715 秒内完成。（注意n下面是2640）

问题是，我将一遍又一遍地运行这部分代码，可能会运行一百万次。这是大型模拟的一部分。因此，即使是性能提升的最小部分也是我所追求的。首先，我认为摆脱 for 循环将用于此目的，并将代码切换为以下 - 从这个主题中获得一些帮助：出现次数的向量：

此代码也适用于list_col(1x7920)、occurrence(1x7920)、list(2640x3) 和straight_index(2640x3)。然而，出乎我的意料，它需要 0.062168 秒，比 for 循环实现差大约三倍。此操作的 0.05217 秒是由于第二行，其中形成了出现矩阵。对于像我这样的数组大小，以这种方式查找出现的事件确实效率低下。

问题是，无论有没有 for 循环，我怎样才能提高这段代码的性能？向量化方法看起来不错，只要我能找到一种更快地计算出现矩阵的方法。正如我所说，这部分代码将运行很多次，因此任何百分比的性能提升都是受欢迎的。

谢谢！

更多信息： colindexes代表一个大小为 1320x2640 的大矩阵。我没有存储整个矩阵，而是仅将 '1' 的行位置存储在这个矩阵中colindexes。其余为零。所以colindexes我在问题中指定的意思是，第 1 列第 55 行和第 2 列第 85 行有一个“1”......所以最小，最大范围是 1,1320。每列只有 3 个 '1'，所以它的大小是 2640x3。当然，这是关于它是如何形成的背景信息。如果这有帮助，则每个值的出现次数colindexes也相同，即 6。

因此，对于矩阵A = [1 0 0 1; 0 1 1 0]，colindexes是[1; 2; 2; 1]。

performance matlab find-occurrences

2014-03-16T14:42:29.653

问题标签 [find-occurrences]

Reference