“text-analysis”的相关标签问题

0 投票

2 回答

389 浏览

cryptography - 如何识别单词是否没有意义，也许是一些不可能的音节？

最初，我有m个包含n 个字符的数组，其中每个数组包含所需单词的未知（对我而言）字符（条件：单词有意义）。

例如m =4，n =3：array0={' t ',' e ',' c ' },array1={' g''o''a ' } , array2= { ' w''d ' ' y '}， array3 = {'e''o ' 's ' }。每个数组只包含一个正确的字母：在array0中是第一个字母，在array1中-第二个......所以，可能的秘密词是' code '：array0[2] =' c '，array1[1] =' o '，数组2[1] = '

我需要找到所有现有的字母组合，即排除生成的无意义单词。英语中“不可能”的音节/字母组合是否有任何规则/规则？

我正在攻击 Vigenere 的密码。所以，我知道密钥的长度及其可能的字符。我正在改组我的数组并得到许多无意义的单词。问题是过滤它们。据我了解，某些条件可以帮助识别错误的单词。例如，如果字长 > 4，则所有元音字符或所有辅音字符都是错误的。某些音节，例如kk *hh* ww，一般来说也是不可能的。我在哪里可以找到这样的规则？

2012-11-13T17:12:32.623

0 投票

1 回答

773 浏览

postgresql - postgresql 短语提取和排名

从表中选定的行中，如何根据短语出现的频率提取短语并对其进行排名？

示例 1：http: //developer.yahoo.com/search/content/V1/termExtraction.html

示例 2： http: //mirror.me/i/love

要查找单词，而不是短语，可以使用

一些注意事项：

短语可以包含“停用词”，例如“易于回答”</li>
理想情况下，英语变体和同义词会自动分组。

pg_trgm 有帮助吗？（如果只找到 2 个和 3 个单词的短语就可以了）。具体如何？

r - 在 R 中查找“近乎重复”的字符串

我正在使用 R 构建情绪分析工具，但我遇到了一些重复问题。数据的主要来源是 Twitter，看起来很多人通过在每条推文的末尾添加一些随机文本来绕过 twitter 自己的垃圾邮件过滤器。例如

我得到了大量的确切推文，最后带有不同的随机字符串。它们要么来自同一个用户，要么来自不同的用户。

是否有任何类似duplicated或unique返回 2 个字符串的接近程度以及它们是否高于某个百分比的函数？

我知道这样做最终会删除那些说完全相同的人的真实推文，比如

但我会在未来处理这个问题。

任何正确方向的提示将不胜感激！

r nlp sentiment-analysis text-analysis

2012-12-05T01:23:58.127

0 投票

2 回答

141 浏览

algorithm - 基于非文字比较的快速搜索方法

基于非文字比较的快速搜索方法

我正在对相当大的数据集（基本上所有字符串）进行小型搜索。表字段之间的关系很简单，尽管比较不能是字面的。即它应该能够关联“filippo”、“philippo”、“filipo”等等。

我找到了一些可以做到的方法，经常绊倒莱文斯坦距离（this、here和here），尽管我不确定它在我的具体情况下是否实用。

简而言之，我有两个表，一个带有“搜索键”的小表和一个更大的表，应该在其中执行搜索。两个表具有相同的字段，并且它们都具有相同的“含义”。例如

和

我想要做的就是获取某种度量，或者为每个给定记录的排名KEYS_TABLE，报告来自SEARCH_TABLE某个相关性以上的所有记录（由度量或简单的一些“KNN”之类的方法定义）。

我说莱文斯坦距离可能不实用，因为它需要计算KEYS_TABLEx中每一行中的每个字段SEARCH_TABLE。考虑到它SEARCH_TABLE有大约 4 亿条记录并且KEYS_TABLE从 100k 到 100 万不等，结果数字太大了。

我希望有一些方法可以让我以前丰富这两个表，或者一些更简单（更便宜）的方法来执行搜索。

值得一提的是，我可以随意转换数据。例如规范化St.到st，Street到st，删除特殊字符等等。

我的选择是什么？

algorithm search-engine string-comparison levenshtein-distance text-analysis

2012-12-05T18:03:03.280

0 投票

3 回答

11056 浏览

cluster-analysis - 将单词聚类成组

这是一个家庭作业问题。我有一个巨大的文件，里面全是文字。我的挑战是将这些词分类为充分代表这些词的不同组/集群。我处理它的策略是使用 K-Means 算法，如您所知，它采用以下步骤。

为整个组生成 k 个随机均值
通过将每个单词与最接近的平均值相关联来创建 K 个集群
计算每个集群的质心，成为新的均值
重复步骤 2 和步骤 3，直到达到某个基准/收敛。

理论上，我有点明白，但不完全明白。我认为在每一步，我都有与之相对应的问题，这些是：

我如何决定 k 随机均值，从技术上讲，我可以说 5，但这不一定是一个好的随机数。那么这个 k 纯粹是一个随机数还是它实际上是由启发式驱动的，例如数据集的大小、所涉及的单词数等
你如何将每个单词与最接近的意思联系起来？从理论上讲，我可以得出结论，每个单词都通过其与最近均值的距离相关联，因此如果有 3 个均值，则属于特定聚类的任何单词都取决于它与哪个均值的距离最短。但是，这实际上是如何计算的？在两个单词“group”、“textword”之间并假设一个平均单词“pencil”，我如何创建一个相似度矩阵。
你如何计算质心？
当您重复第 2 步和第 3 步时，您是否假设每个先前的集群都是一个新的数据集？

很多问题，我显然不清楚。如果有任何我可以阅读的资源，那就太好了。维基百科还不够:(

cluster-analysis k-means text-analysis

2012-12-07T18:53:53.320

0 投票

4 回答

1091 浏览

python - 我如何使用文本分析来调查问卷回复？

我是一个学生团队的“程序员”，旨在调查我的文法学校的满意度和一般问题。我们有一个建立在 1-6 范围内的问题，我们通过我用 python 编写的图表软件来解释这些答案。

现在<textarea>在我们问题的末尾有一个可以随意使用的。我目前正在考虑使这些数据可用的方法（我们不想阅读超过 800 多个答案）。

如何使用 Python 中的文本分析来调查学生的写作内容？我在想一种方法来“标记”任何写下来的句子，比如：

是否有任何可用的方法来获得它？使用现有的分词器有意义吗？

谢谢你的帮助！

python statistics computer-science lexical-analysis text-analysis

2012-12-09T10:26:01.947

0 投票

1 回答

35608 浏览

python - 机器学习非常简单的文本分类？

可能的重复：
文本分类到类别

我目前正在研究一种解决方案，以根据他们的描述在包含 10k 家餐厅的数据库中获取食物类型。我正在使用关键字列表来决定提供哪种食物。

我读了一点关于机器学习的书，但我根本没有这方面的实践经验。任何人都可以向我解释是否/为什么它会更好地解决像这样的简单问题吗？我发现准确性比性能更重要！

简化示例：

一个可能的描述可能是：

“Hong's Garden Restaurant 为我们的顾客提供美味、价格合理的中餐。如果您发现自己在周六晚上 8 点突然想吃米饭、面条或大豆，请不要担心！我们 7 天营业一周，提供外卖服务，薯条也可以在这里买！”

python algorithm machine-learning text-analysis

2012-12-09T14:20:40.970

0 投票

3 回答

4836 浏览

php - 如何根据“标题”和“描述”列在 MySQL 表中查找“相似”记录？

我有一个 MySQL 表存储一些用户生成的内容。对于每条内容，我都有一个标题 (VARCHAR 255) 和一个描述 (TEXT) 列。

当用户查看记录时，我想根据标题/描述相似来查找与其“相似”的其他记录。

这样做的最佳方法是什么？我正在使用 PHP 和 MySQL。

我最初的想法是：

1）要么从标题和描述中去掉常用词，留下“唯一”关键字，然后找到共享这些关键字的其他记录。

例如，在句子：“Bob 早上 5 点醒来去上学”中，关键字将是：“Bob,wake, 5, going, school”。然后，如果有另一张唱片的标题谈到“鲍勃”和“学校”，它们将被视为“相似”。

2）或者使用MySQL的全文搜索，虽然我不知道这对这样的事情是否有好处？

这两种方法中哪种方法更好，或者还有另一种更好的方法？

php mysql nlp artificial-intelligence text-analysis

2012-12-19T18:23:09.590

0 投票

1 回答

107 浏览

spam - 垃圾邮件档案中垃圾邮件的文本分析

我尝试使用概率方法实现反垃圾邮件引擎。第一步是分析和研究垃圾邮件中单词的类型及其频率。所以我用Java写了一个非常简单的程序来过滤垃圾邮件中的单词。我使用 "split("\W")" （\W 表示空格）将整个文本文件分成几行和几行。

我下载了垃圾邮件档案，并认为我可以使用此应用程序轻松分析或扫描这些 txt 文件。但是很快，我就遇到了一个大问题！文本文件包含 HTML 标签、链接、电子邮件标题、等等等等……

现在我想知道如何解决这个问题？我应该使用 html 解析器还是加强分析这些文件的逻辑？

答案主要看我在实施阶段会不会遇到同样的问题？当前的垃圾邮件过滤器有什么作用？

spam spam-prevention text-analysis

2013-02-06T17:48:07.087

0 投票

1 回答

23696 浏览

r - 试图让 tf-idf 加权在 R 中工作

我正在尝试使用 tm 包进行一些非常基本的文本分析并获得一些 tf-idf 分数；我正在运行 OS X（尽管我在 Debian Squeeze 上尝试过，结果相同）；我有一个目录（这是我的工作目录），里面有几个文本文件（第一个包含Ulysses的前三集，第二个包含后三集，如果你必须知道的话）。

R 版本：2.15.1 SessionInfo() 报告这个关于 tm：[1] tm_0.5-8.3

问题标签 [text-analysis]

Reference