问题标签 [text-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2027 浏览

text - 文本挖掘 - 从非结构化文本中提取波段名称

我知道这是一个普遍的、开放式的问题。我基本上是在寻求帮助来决定前进的方向,也许是在寻求一些阅读材料。

我正在研究一种进行非结构化文本挖掘的算法,并试图从该文本中提取特定的东西——乐队的名称(单个艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2 行文本)。

一些例子可能是(不是真实事件):

现在,我正在考虑尝试一个分类器,但文本似乎很小,无法为其提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式或算法可以为这类问题产生良好的结果(或者可能没有算法会)。

0 投票
1 回答
1458 浏览

nlp - Jython 中的 Antlr 与 NLTK

我目前正在用 Java 编写一个标记和解析文本的 NLP 项目。我的主要问题是解析组件,它目前正在使用 Antlr 将标记的文本转换为解析树。由于 Antlr 主要不是作为 NL 解析工具编写的,因此它会占用大量内存并且不容易适应修改语法。我想在 jython 中使用 NLTK 来解决这个问题,特别是考虑到这是一个分布式项目,或者是否有一个简洁的 java 等价物来生成这些解析树,是否建议这样做。

谢谢

0 投票
3 回答
2278 浏览

text-mining - 使用保存的主题状态用槌推断主题

我使用以下命令从一些文档生成主题模型:

但是,我没有使用该--output-model选项来生成序列化的主题培训对象。有什么方法可以使用状态文件来推断新文档的主题?训练很慢,如果我必须从头开始创建序列化模型,我需要几天时间才能重新训练。

0 投票
5 回答
16185 浏览

java - Java 中是否有用于文本分析/挖掘的 API?

我想知道是否有 API 可以在 Java 中进行文本分析。可以提取文本中的所有单词、单独的单词、表达式等的东西。可以告知找到的单词是否是数字、日期、年份、名称、货币等的东西。

我现在开始文本分析,所以我只需要一个 API 即可启动。我做了一个网络爬虫,现在我需要一些东西来分析下载的数据。需要方法来计算页面中的单词数、相似单词、数据类型和与文本相关的其他资源。

Java中有用于文本分析的API吗?

编辑:文本挖掘,我想挖掘文本。提供此功能的 Java API。

0 投票
1 回答
2907 浏览

java - 大型稀疏矩阵的奇异值分解的Java实现

我只是想知道是否有人知道大型稀疏矩阵的奇异值分解(SVD)的Java实现?我需要这个实现来进行潜在语义分析(LSA)。

我尝试了来自 UJMP 和 JAMA 的软件包,但是当行数 >= 1000 和 col >= 500 时它们会窒息。如果有人能指出我的伪代码或那里的东西,那将不胜感激。

0 投票
4 回答
7581 浏览

java - 我如何根据姓名、数字、金钱、日期等对文本中的单词进行分类?

一周前我做了一些关于文本挖掘的问题,但我有点困惑,但现在我知道我想做 wgat。

情况:我有很多包含 HTML 内容的下载页面。例如,其中一些可以是来自博客的文本。它们不是结构化的并且来自不同的站点。

我想要做什么:我将用空格分割所有单词,并且我想将每个单词或一组单词分类为一些预定义的项目,如姓名、数字、电话、电子邮件、网址、日期、金钱、温度等.

我所知道的:我知道/听说过有关自然语言处理、命名实体识别器、POSTagging、NayveBayesian、HMM、培训和很多分类的事情等的概念,但是有一些不同的 NLP 库具有不同的分类器和方法来做到这一点,我不知道有什么用或做什么。

我需要什么:我需要一些来自分类器、NLP 等的代码示例,它可以将每个单词从文本中单独分类,而不是整个文本。像这样的东西:

有人可以帮助我吗?我对各种 API、分类器和算法感到困惑。

0 投票
1 回答
585 浏览

r - 拨浪鼓将字符串从 WEKA 加载到矢量文件

我一直在使用 WEKA 做一些文本分类工作,我想试试 R。

问题是我无法将 WEKA 的字符串解析器创建的 String to Vector ARFF 文件加载到 Rattle 中。

查看日志,我得到如下信息:

我的 ARFF 数据文件看起来有点像这样:

任何想法如何将其转换为 R 可读格式?

干杯!

0 投票
1 回答
946 浏览

string - RapidMiner 情绪分析

我有一组被分类为正面或负面的短消息,它们保存在 WEKA 生成的 ARFF 文件中。我想将此数据移动到 RapidMiner 以进行分类和处理。

作为 RapidMiner 的一个完整的新手,任何人都有关于如何为这些消息构建分类器的示例。消息在一个文件中,格式如下:

谢谢!

0 投票
3 回答
2564 浏览

java - Word Net - 单词同义词和相关的单词结构 - Java 或 Python

我希望使用 WordNet 从一组基本术语中查找类似术语的集合。

例如,单词'discouraged' - 潜在的同义词可能是:daunted, glum, deterred, pessimistic.

我还想识别潜在的二元语法,例如;beat down, put off, caved in等等

如何使用 Java 或 Python 提取这些信息?是否有任何托管的 WordNet 数据库/Web 界面允许此类查询?

谢谢!

0 投票
3 回答
2981 浏览

algorithm - 潜在语义分析概念

我读过有关使用奇异值分解 (SVD) 在文本语料库中进行潜在语义分析 (LSA) 的文章。我已经了解如何做到这一点,我也了解 SVD 的数学概念。

但我不明白为什么它适用于文本语料库(我相信 - 必须有语言解释)。有人能从语言的角度解释一下吗?

谢谢