问题标签 [text-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1137 浏览

string - 字符串匹配以估计相似度

我想分析一个 100 个字符长度的字段并估计相似度百分比。例如,对于同一个问题“您对智能手机有什么看法?”,

A 人: “浪费钱的最佳方式”

人 B: “很棒的东西。让您始终保持联系”

C 人: “浪费金钱和时间的工具”

其中,仅通过匹配单个单词,A 和 C 听起来很相似。我正在尝试做这样的事情,从R开始,然后扩展以匹配“最佳”、“最佳方式”、“最佳方式浪费”等单词的组合。我是文本分析和 R 的新手,不能正确命名这些方法以进行有效搜索。

请指导我您的意见和参考。提前致谢

0 投票
3 回答
2707 浏览

algorithm - 如何检测文本文档中的重复项并返回重复项的相似度?

我正在编写一个爬虫来从某个网站获取内容,但是内容可以重复,我想避免这种情况。所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例:

  • 文本 1:“我正在写一个爬虫到”
  • 文本 2:“我正在编写一些文本爬虫来获取”

比较函数将文本 2 作为相同文本 1 返回 5/8%(其中 5 是文本 2 相同文本 1 的字数(按字序比较),8 是文本 2 的总字数)。如果删除“某些文本”,则文本 2 与文本 1 相同(我需要检测情况)。我该怎么做?

0 投票
5 回答
5558 浏览

c - 如何计算单引号或双引号

我的问题是能够计算c中字符串中单引号或双引号的数量。例子

用户输入字符串,我通过gets()函数获取,然后我需要这个计数器来进一步分析字符串。

例如,当我必须在我的字符串中计算 '|' 时,这会更容易

所以我的功能很简单:

但是现在我必须分析引号,我不知道该为 if(condition) 写什么

0 投票
4 回答
4971 浏览

python - Python的wordcount降序

我正在使用此代码来计算文本文件中单词出现的频率:

如何按频率数字的降序打印输出?

0 投票
1 回答
2092 浏览

python - 在python中将一个文本文件聚类到组和主题中

我是文本挖掘的新手,我有一个非常大的文本文件,其中每一行都代表对一个项目(一个句子)的评论。

我想找到评论中存在的组和主题。所以我的问题是我的数据的特征、组和主题是什么?每个词的出现频率可以作为特征吗?我们是否必须将每一行(评论)视为文档本身,然后我们必须对评论进行聚类?我还想知道是否应该事先知道组或主题的数量,因为在任何无监督算法中,集群的数量都应该是一个已知参数。

我的第二个问题是如何编辑此k-means 聚类代码以查找组和NMF 代码以使用我的 reviews.txt 文件查找主题。

0 投票
1 回答
2145 浏览

java - GATE API 和 JAPE 代码,返回空结果

我将 GATE API 与 java 代码一起使用,并尝试在文档文本上运行已知的 JAPE 规则之一,但不幸的是我无法获得适当的结果。我的代码如下:

使用的 JAPE 规则如下:

最后我得到的结果如下:

请任何帮助

0 投票
1 回答
218 浏览

nlp - 文章的概念标记

我有一组文章,我想从每篇文章中提取概念。这个概念可能是独立的,也可能是连在一起形成一个新的概念。

为此,我最近遇到了各种付费API,例如HP的IDOL on DEMAND(http://www.autonomy.com/technology/idol-functions/conceptual-search),Data Harmony(http://www.dataharmony。 com/services-view/mai-components/),ALCHEMY API(http://www.alchemyapi.com/products/features/concept-tagging/)等。但是我有大量的文档,无法负担使用定价 API 的费用。是否有任何免费工具可以做到这一点?我也知道 DBPedia data-sets ,它们用于将概念链接在一起。但我还没有弄清楚如何使用它们。对此的任何帮助都会很有用。

此外,我很久以前就使用过 Stanbol NLP 工具。我想知道这是否可以通过那个来完成,或者通过任何其他工具来完成。

0 投票
1 回答
569 浏览

c# - 如何让 NMecab 输出罗马字?

我正在使用Mecab 的 .NET 端口(称为 NMecab)尝试将日语平假名、片假名和日本汉字解析为罗马字。

这是我的代码:

当我打电话时Parse(input)使用以下日语文本:“ども”

我得到输出:“ども助词,接続助词, , , , ,ども,ドモ,ドモ EOS”

我正在寻找“ども”的罗马字,应该是“domo”。

我已尝试按照此 SO answer 中的讨论直接使用 Mecab ,但得到相同的输出。

0 投票
1 回答
156 浏览

nlp - 文本分析旋转文本的规则

我在想文本旋转应用程序是如何工作的。就像一些应用程序接受文本并给出改变主题的相似含义文本(通过使用同义词、被动句等)。

首先看它,我认为只需用同义词更改单词就可以了。但后来我意识到这还不够。

有人可以帮我定义文本旋转的文本分析规则吗?

  1. 从文本中收集名词、形容词并将其替换为同义词。

对类似教程的任何参考也将有所帮助。

0 投票
1 回答
507 浏览

elasticsearch - Elasticsearch - 嵌套 - 缺少第一个字符

我正在对 Elasticsearch 使用 Nest 客户端。我正在使用 n-gram 索引分析器。我注意到一些奇怪的行为 - 当我从头开始搜索单词时,我没有得到任何结果。但是,如果我从第二个字符开始搜索,它会完美运行。这些只是普通的英文字母。

因此,例如,如果我搜索“itty”、“itt”、“tty”等,它会找到包含“kitty”的单词,而不是“ki”、“kit”等。这几乎就像 n-gram只是跳过第一个字符。

我不确定这是否是由 Nest 引起的,或者这是否是 n-gram 的正常行为。我的索引设置与这篇文章中的设置相似:使用 NEST 的 Elasticsearch:如何配置分析器以查找部分单词?除了我的最大克数只有 10。

更新

我稍微简化了我的代码并验证了相同的行为。

这是使用 Nest 定义的映射配置:

这是缺少第一个字符的搜索: