问题标签 [word-frequency]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
clojure - 来自大数据的clojure频率字典
我想编写自己的朴素贝叶斯分类器,我有一个这样的文件:
(这是垃圾邮件和火腿消息的数据库,第一个单词指向垃圾邮件或火腿,直到 eoln 是来自这里的消息(大小:0.5 Mb)之前的文本http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/ )
我想制作一个像这样的哈希图: {"spam" {"go" 1, "until" 100, ...}, "ham" {......}} 哈希图,其中每个值都是频率单词图(分别用于火腿和垃圾邮件)
我知道,python 或 c++ 是如何做到的,我是通过 clojure 实现的,但是我的解决方案在大数据中失败了(stackoverflow)
我的解决方案:
我试图找出错误的地方并写了这个
错误:
任何人都可以帮助我使它更好/有效吗?PS对不起我的写作错误。英语不是我的母语。
java - 如何从使用 tika 提取的文本中获取频繁出现的单词
我使用以下代码(使用 tika)提取了多种文件格式(pdf、html、doc)的文本
现在我的要求是从提取的内容中获取频繁出现的单词,你能建议我如何做到这一点。
谢谢
java - 无法获取多个文件的最常用词
嗨,我在我的 htmlfiles 文件夹中存储了 3 个 html 文件,这些文件使用 tika 提取文本并将其存储到 htmltextfiles 文件夹中的文本文件中。对于 htmltextfiles 文件夹中的每个文本文件,我删除了停用词并显示了前 10 个经常出现的词。我的 htmltextfiles 包含:
下面是我的java程序
对于此代码,我得到低于输出
问题是一个文件的关键字正在添加到下一个文件关键字中,我的目的是获得以下输出
谁能建议我如何实现这一点,我已经尝试了很多方法,但没有得到我需要的输出,请帮助我..谢谢
java - 如何使用java增加频繁出现的单词的数量
嗨,下面是我的程序,它显示前 10 个频繁出现的单词,但我的要求是获得前 30 个频繁出现的单词,
我已将地图大小更改为 30,但它不起作用,请建议我如何获得前 30 个频繁出现的单词。
谢谢
python - 有英文单词(包括频率)的列表吗?
我正在使用 Python 将 url 解析为单词。我取得了一些成功,但我正在努力减少歧义。例如,我得到以下网址
我的算法输出:
显然,第二个解析是正确的,但第一个在技术上也同样正确(显然“suk”是我正在使用的字典中的一个词)。
如果有一个单词表还包含每个单词的频率/流行度,那么对我有很大帮助。我可以将它应用到我的算法中,然后选择第二次解析(因为“uk”显然比“suk”更常见)。有谁知道我在哪里可以找到这样的清单?我找到了 wordfrequency.info,但他们对数据收费,而且他们提供的免费样本没有足够的单词让我能够成功使用它。
或者,我想我可以下载一个大型语料库(Gutenberg 项目?)并自己获取频率值,但是如果这样的数据集已经存在,它会让我的生活更轻松。
word-frequency - 词频图
我想制作一个函数,它从文本输入中产生一个像这样在图片中的词频图。这张照片是从一份报告中拍摄的,所以我不确定他们是如何制作的。
python - How to convert sparse matrix to dense form using python
I have the following matrix which I believe is sparse. I tried converting to dense using the x.dense format but it never worked. Any suggestions as to how to do this?, thanks.
someone put forward the solution below, but is there a better way?
mx.todense(). Intended output should appear in this form:[[2,1,1,1,1,3,4], [1,5,2,1,1,1,1], [2,1,1,1,2,1,1,1]]
r - 使用 R 的词频列表
我一直在使用 tm 包来运行一些文本分析。我的问题是创建一个包含单词及其频率的列表
我通常使用以下代码生成频率范围内的单词列表
有什么方法可以自动执行此操作,以便我们获得包含所有单词及其频率的数据框?
我面临的另一个问题是将术语文档矩阵转换为数据框。当我处理大量数据样本时,我遇到了内存错误。有一个简单的解决方案吗?
ruby - 如何有效地计算大型集合中的所有短语?
我需要创建一个短语频率表,计算包含几百万个单词的非常大的集合中的所有短语。最终结果将是一个表格,例如此处创建的表格: http ://www.hermetic.ch/wfca/phrases.htm
什么是实现这一点的有效算法?如果您能够展示一些细节,那么在 Ruby 中实现它会更好。或者,坦率地说,我什至对使用xapian或 lucene 持开放态度,但在根据需要构建频率表输出方面,并没有看到一种直接的方法来实现这一点。