问题标签 [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - NLP:定性“正面”与“负面”句子
我需要您的帮助来确定分析“正面”与“负面”行业特定句子(即电影评论)的最佳方法。我以前见过诸如 OpenNLP 之类的库,但它太低级了——它只是给了我基本的句子组成;我需要的是一个更高级别的结构: - 希望有单词列表 - 希望可以在我的数据集上训练
谢谢!
data-structures - 如何在大量文本中找到常用短语
我目前正在做一个项目,我需要在大量文本中挑选出最常见的短语。例如,假设我们有如下三个句子:
- 狗从女人身上跳了过去。
- 狗跳进了车里。
- 狗跳上楼梯。
从上面的示例中,我想提取“ the dog jumped ”,因为它是文本中最常见的短语。起初我想,“哦,让我们使用有向图[带有重复节点]”:
有向图 http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png
编辑:抱歉,我在制作这个图表时犯了一个错误,“over”、“into”和“up”应该都链接回“the”。
我打算保持一个单词在每个节点对象中出现的次数(“the”将是 6;“dog”和“jumped”,3;等等),但尽管有许多其他问题,但主要问题还是出现了我们添加了更多示例(请忽略错误的语法:-)):
- 狗跳上跳下。
- 狗跳起来就像以前没有狗跳过一样。
- 狗高兴地跳了起来。
我们现在遇到了一个问题,因为“ dog ”会启动一个新的根节点(与“the”处于同一级别),并且我们不会将“ dog jumped ”识别为现在最常见的短语。所以现在我在想也许我可以使用无向图来映射所有单词之间的关系并最终挑选出常用短语,但我不确定这将如何工作,因为你失去了重要的顺序关系的话。
那么,对于如何识别大量文本中的常用短语以及我将使用什么数据结构,是否有人有任何一般的想法。
谢谢,本
text-processing - 术语聚类库?
有人知道做术语聚类的开源\免费库吗?
谢谢,亚尼夫
words - 很多文章的单词列表 - 文档术语矩阵
我有近 15 万篇土耳其语文章。我将使用文章进行自然语言处理研究。我想在处理文章后存储每篇文章的单词和频率。
我现在将它们存储在 RDBS 中。
我有 3 张桌子:
文章 -> article_id,text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, frequency (index for word_id, index for article_id )
我会查询
- 一篇文章中的所有单词
- 每篇文章一个词的频率
- 单词出现在所有文章和哪些文章中
我在 word-article 表中有数百万行。在这个项目中,我一直使用 RDBS。从mysql开始,现在使用oracle。但是我不想用oracle,想要比mysql更好的性能。
此外,我必须在具有 4gb 内存的机器上处理这项工作。
简单地说,如何存储文档术语矩阵并对其进行查询?性能是必要的。“键值数据库”可以在性能上击败 mysql 吗?或者什么可以打败mysql?
如果您的答案编程语言取决于,我正在用 python 编写代码。但是 C/C++ , Java 没问题。
java - java中Tf Idf的任何教程或代码
我正在寻找一个可以计算 tf-idf 计算的简单 java 类。我想对 2 个文档进行相似性测试。我发现了很多使用 tf-idf 类的 BIG API。我不想使用一个大的 jar 文件,只是为了做我的简单测试。请帮忙 !或者至少如果有人能告诉我如何找到 TF?和以色列国防军?我会计算结果 :) 或者如果你能告诉我一些好的 Java 教程。请不要告诉我寻找谷歌,我已经做了 3 天,但找不到任何东西 :( 也请不要将我推荐给 Lucene :(
text-analysis - 在可能的英语单词边界上拆分字符串
我最近使用 Adobe Acrobat Pro 的 OCR 功能来处理日语汉字词典。输出的整体质量通常比我希望的要好很多,但是文本的英文部分的单词边界经常丢失。例如,这是我文件中的一行:
我可以到处插入缺少的单词边界,但这将增加已经是一项艰巨的任务。我希望可能存在可以分析这样的文本的软件,其中一些单词一起运行,并在可能的单词边界上分割文本。有这样的包吗?
我正在使用 Emacs,所以如果所讨论的包已经是 Emacs 包或者可以很容易地集成到 Emacs 中,那将是非常甜蜜的,这样我就可以简单地将光标放在上面的一行上并重复调用一些命令以可能的正确性递减顺序在单词边界上分割行。
nlp - 如何从一系列文本条目中提取常见/重要的短语
我有一系列文本项——来自 MySQL 数据库的原始 HTML。我想在这些条目中找到最常见的短语(不是单个最常见的短语,理想情况下,不强制逐字匹配)。
我的示例是 Yelp.com 上的任何评论,它显示了来自给定餐厅的数百条评论的 3 个片段,格式如下:
“试试汉堡包”(44 条评论)
例如,本页的“回顾重点”部分:
http://www.yelp.com/biz/sushi-gen-los-angeles/
我已经安装了 NLTK 并且我已经玩过它了一点,但老实说,我对这些选项感到不知所措。这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案。
twitter - 从小文本内容(如推文)生成标签
我之前已经问过一个类似的问题,但我注意到我有很大的限制:我正在处理诸如用户推文之类的小型文本集以生成标签(关键字)。
似乎已接受的建议(逐点互信息算法)旨在处理更大的文档。
有了这个约束(处理少量文本),我如何生成标签?
问候
algorithm - 向用户建议标签列表的算法
给定一个自由文本,我需要分析这个文本并从预先存在的列表中建议一个标签列表。
市场上有哪些算法?他们能处理这样的情况吗,例如,文本有一个词
高胆固醇
我想要它,所以建议
心脏疾病
尽管“高胆固醇”可能(最初)不存在于预定义列表中。
java - Java 文本分析库
我正在寻找一种 Java 驱动的解决方案来满足分析句子以记录关键字是正面使用还是负面使用的需求。
即关键字可能是“卷心菜”和句子:-
“我喜欢卷心菜,但不喜欢豌豆”
而且我想要某种Java文本分析器将其记录为肯定的。lucene (Hibernate-Search) 库可以用于此目的吗?
有什么想法吗?