问题标签 [text-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
389 浏览

cryptography - 如何识别单词是否没有意义,也许是一些不可能的音节?

最初,我有m个包含n 个字符的数组,其中每个数组包含所需单词的未知(对我而言)字符(条件:单词有意义)。

例如m =4,n =3:array0={' t ',' e ',' c ' },array1={' g''o''a ' } , array2= { ' w''d ' ' y '}, array3 = {'e''o ' 's ' }。每个数组只包含一个正确的字母:在array0中是第一个字母,在array1中-第二个......所以,可能的秘密词是' code ':array0[2] =' c ',array1[1] =' o ',数组2[1] = '

我需要找到所有现有的字母组合,即排除生成的无意义单词。英语中“不可能”的音节/字母组合是否有任何规则/规则?

我正在攻击 Vigenere 的密码。所以,我知道密钥的长度及其可能的字符。我正在改组我的数组并得到许多无意义的单词。问题是过滤它们。据我了解,某些条件可以帮助识别错误的单词。例如,如果字长 > 4,则所有元音字符或所有辅音字符都是错误的。某些音节,例如kk *hh* ww,一般来说也是不可能的。我在哪里可以找到这样的规则?

0 投票
1 回答
773 浏览

postgresql - postgresql 短语提取和排名

从表中选定的行中,如何根据短语出现的频率提取短语并对其进行排名?

示例 1:http: //developer.yahoo.com/search/content/V1/termExtraction.html

示例 2: http: //mirror.me/i/love

要查找单词,而不是短语,可以使用

一些注意事项:

  • 短语可以包含“停用词”,例如“易于回答”</li>
  • 理想情况下,英语变体和同义词会自动分组。

pg_trgm 有帮助吗?(如果只找到 2 个和 3 个单词的短语就可以了)。具体如何?

相关问题:

0 投票
1 回答
1318 浏览

r - 在 R 中查找“近乎重复”的字符串

我正在使用 R 构建情绪分析工具,但我遇到了一些重复问题。数据的主要来源是 Twitter,看起来很多人通过在每条推文的末尾添加一些随机文本来绕过 twitter 自己的垃圾邮件过滤器。例如

我得到了大量的确切推文,最后带有不同的随机字符串。它们要么来自同一个用户,要么来自不同的用户。

是否有任何类似duplicatedunique返回 2 个字符串的接近程度以及它们是否高于某个百分比的函数?

我知道这样做最终会删除那些说完全相同的人的真实推文,比如

但我会在未来处理这个问题。

任何正确方向的提示将不胜感激!

0 投票
2 回答
141 浏览

algorithm - 基于非文字比较的快速搜索方法

基于非文字比较的快速搜索方法

我正在对相当大的数据集(基本上所有字符串)进行小型搜索。表字段之间的关系很简单,尽管比较不能是字面的。即它应该能够关联“filippo”、“philippo”、“filipo”等等。

我找到了一些可以做到的方法,经常绊倒莱文斯坦距离(thisherehere),尽管我不确定它在我的具体情况下是否实用。

简而言之,我有两个表,一个带有“搜索键”的小表和一个更大的表,应该在其中执行搜索。两个表具有相同的字段,并且它们都具有相同的“含义”。例如

我想要做的就是获取某种度量,或者为每个给定记录的排名KEYS_TABLE,报告来自SEARCH_TABLE某个相关性以上的所有记录(由度量或简单的一些“KNN”之类的方法定义)。

我说莱文斯坦距离可能不实用,因为它需要计算KEYS_TABLEx中每一行中的每个字段SEARCH_TABLE。考虑到它SEARCH_TABLE有大约 4 亿条记录并且KEYS_TABLE从 100k 到 100 万不等,结果数字太大了。

我希望有一些方法可以让我以前丰富这两个表,或者一些更简单(更便宜)的方法来执行搜索。

值得一提的是,我可以随意转换数据。例如规范化St.stStreetst,删除特殊字符等等。

我的选择是什么?

0 投票
3 回答
11056 浏览

cluster-analysis - 将单词聚类成组

这是一个家庭作业问题。我有一个巨大的文件,里面全是文字。我的挑战是将这些词分类为充分代表这些词的不同组/集群。我处理它的策略是使用 K-Means 算法,如您所知,它采用以下步骤。

  1. 为整个组生成 k 个随机均值
  2. 通过将每个单词与最接近的平均值相关联来创建 K 个集群
  3. 计算每个集群的质心,成为新的均值
  4. 重复步骤 2 和步骤 3,直到达到某个基准/收敛。

理论上,我有点明白,但不完全明白。我认为在每一步,我都有与之相对应的问题,这些是:

  1. 我如何决定 k 随机均值,从技术上讲,我可以说 5,但这不一定是一个好的随机数。那么这个 k 纯粹是一个随机数还是它实际上是由启发式驱动的,例如数据集的大小、所涉及的单词数等

  2. 你如何将每个单词与最接近的意思联系起来?从理论上讲,我可以得出结论,每个单词都通过其与最近均值的距离相关联,因此如果有 3 个均值,则属于特定聚类的任何单词都取决于它与哪个均值的距离最短。但是,这实际上是如何计算的?在两个单词“group”、“textword”之间并假设一个平均单词“pencil”,我如何创建一个相似度矩阵。

  3. 你如何计算质心?

  4. 当您重复第 2 步和第 3 步时,您是否假设每个先前的集群都是一个新的数据集?

很多问题,我显然不清楚。如果有任何我可以阅读的资源,那就太好了。维基百科还不够:(

0 投票
4 回答
1091 浏览

python - 我如何使用文本分析来调查问卷回复?

我是一个学生团队的“程序员”,旨在调查我的文法学校的满意度和一般问题。我们有一个建立在 1-6 范围内的问题,我们通过我用 python 编写的图表软件来解释这些答案。

现在<textarea>在我们问题的末尾有一个可以随意使用的。我目前正在考虑使这些数据可用的方法(我们不想阅读超过 800 多个答案)。

如何使用 Python 中的文本分析来调查学生的写作内容?我在想一种方法来“标记”任何写下来的句子,比如:

是否有任何可用的方法来获得它?使用现有的分词器有意义吗?

谢谢你的帮助!

0 投票
1 回答
35608 浏览

python - 机器学习非常简单的文本分类?

可能的重复:
文本分类到类别

我目前正在研究一种解决方案,以根据他们的描述在包含 10k 家餐厅的数据库中获取食物类型。我正在使用关键字列表来决定提供哪种食物。

我读了一点关于机器学习的书,但我根本没有这方面的实践经验。任何人都可以向我解释是否/为什么它会更好地解决像这样的简单问题吗?我发现准确性比性能更重要!

简化示例:

一个可能的描述可能是:

“Hong's Garden Restaurant 为我们的顾客提供美味、价格合理的中餐。如果您发现自己在周六晚上 8 点突然想吃 米饭面条大豆,请不要担心!我们 7 天营业一周,提供外卖服务,薯条也可以在这里买!”

0 投票
3 回答
4836 浏览

php - 如何根据“标题”和“描述”列在 MySQL 表中查找“相似”记录?

我有一个 MySQL 表存储一些用户生成的内容。对于每条内容,我都有一个标题 (VARCHAR 255) 和一个描述 (TEXT) 列。

当用户查看记录时,我想根据标题/描述相似来查找与其“相似”的其他记录。

这样做的最佳方法是什么?我正在使用 PHP 和 MySQL。

我最初的想法是:

1)要么从标题和描述中去掉常用词,留下“唯一”关键字,然后找到共享这些关键字的其他记录。

例如,在句子:“Bob 早上 5 点醒来去上学”中,关键字将是:“Bob,wake, 5, going, school”。然后,如果有另一张唱片的标题谈到“鲍勃”和“学校”,它们将被视为“相似”。

2)或者使用MySQL的全文搜索,虽然我不知道这对这样的事情是否有好处?

这两种方法中哪种方法更好,或者还有另一种更好的方法?

0 投票
1 回答
107 浏览

spam - 垃圾邮件档案中垃圾邮件的文本分析

我尝试使用概率方法实现反垃圾邮件引擎。第一步是分析和研究垃圾邮件中单词的类型及其频率。所以我用Java写了一个非常简单的程序来过滤垃圾邮件中的单词。我使用 "split("\W")" (\W 表示空格)将整个文本文件分成几行和几行。

我下载了垃圾邮件档案,并认为我可以使用此应用程序轻松分析或扫描这些 txt 文件。但是很快,我就遇到了一个大问题!文本文件包含 HTML 标签、链接、电子邮件标题、等等等等……

现在我想知道如何解决这个问题?我应该使用 html 解析器还是加强分析这些文件的逻辑?

答案主要看我在实施阶段会不会遇到同样的问题?当前的垃圾邮件过滤器有什么作用?

0 投票
1 回答
23696 浏览

r - 试图让 tf-idf 加权在 R 中工作

我正在尝试使用 tm 包进行一些非常基本的文本分析并获得一些 tf-idf 分数;我正在运行 OS X(尽管我在 Debian Squeeze 上尝试过,结果相同);我有一个目录(这是我的工作目录),里面有几个文本文件(第一个包含Ulysses的前三集,第二个包含后三集,如果你必须知道的话)。

R 版本:2.15.1 SessionInfo() 报告这个关于 tm:[1] tm_0.5-8.3

相关代码:

您会注意到,加权似乎仍然是默认词频 (tf),而不是我想要的加权 tf-idf 分数。

如果我遗漏了一些明显的东西,我深表歉意,但根据我读过的文档,这应该可行。毫无疑问,错误不在于星星......