问题标签 [text-mining]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2510 问题

0 投票

2 回答

2027 浏览

text - 文本挖掘 - 从非结构化文本中提取波段名称

我知道这是一个普遍的、开放式的问题。我基本上是在寻求帮助来决定前进的方向，也许是在寻求一些阅读材料。

我正在研究一种进行非结构化文本挖掘的算法，并试图从该文本中提取特定的东西——乐队的名称（单个艺术家、乐队等）。文本本身没有可预测的结构，但相对较小（1、2 行文本）。

一些例子可能是（不是真实事件）：

现在，我正在考虑尝试一个分类器，但文本似乎很小，无法为其提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式或算法可以为这类问题产生良好的结果（或者可能没有算法会）。

text nlp text-mining named-entity-recognition

2011-07-12T20:13:50.863

0 投票

1 回答

1458 浏览

nlp - Jython 中的 Antlr 与 NLTK

我目前正在用 Java 编写一个标记和解析文本的 NLP 项目。我的主要问题是解析组件，它目前正在使用 Antlr 将标记的文本转换为解析树。由于 Antlr 主要不是作为 NL 解析工具编写的，因此它会占用大量内存并且不容易适应修改语法。我想在 jython 中使用 NLTK 来解决这个问题，特别是考虑到这是一个分布式项目，或者是否有一个简洁的 java 等价物来生成这些解析树，是否建议这样做。

谢谢

nlp antlr nltk text-mining

2011-07-15T10:55:26.273

0 投票

3 回答

2278 浏览

text-mining - 使用保存的主题状态用槌推断主题

我使用以下命令从一些文档生成主题模型：

但是，我没有使用该--output-model选项来生成序列化的主题培训对象。有什么方法可以使用状态文件来推断新文档的主题？训练很慢，如果我必须从头开始创建序列化模型，我需要几天时间才能重新训练。

text-mining topic-modeling mallet

2011-07-19T19:27:21.640

0 投票

5 回答

16185 浏览

java - Java 中是否有用于文本分析/挖掘的 API？

我想知道是否有 API 可以在 Java 中进行文本分析。可以提取文本中的所有单词、单独的单词、表达式等的东西。可以告知找到的单词是否是数字、日期、年份、名称、货币等的东西。

我现在开始文本分析，所以我只需要一个 API 即可启动。我做了一个网络爬虫，现在我需要一些东西来分析下载的数据。需要方法来计算页面中的单词数、相似单词、数据类型和与文本相关的其他资源。

Java中有用于文本分析的API吗？

编辑：文本挖掘，我想挖掘文本。提供此功能的 Java API。

java api nlp analysis text-mining

2011-07-23T12:56:34.703

0 投票

1 回答

2907 浏览

java - 大型稀疏矩阵的奇异值分解的Java实现

我只是想知道是否有人知道大型稀疏矩阵的奇异值分解（SVD）的Java实现？我需要这个实现来进行潜在语义分析（LSA）。

我尝试了来自 UJMP 和 JAMA 的软件包，但是当行数 >= 1000 和 col >= 500 时它们会窒息。如果有人能指出我的伪代码或那里的东西，那将不胜感激。

java text-mining large-data-volumes large-data

2011-07-25T17:28:58.037

0 投票

4 回答

7581 浏览

java - 我如何根据姓名、数字、金钱、日期等对文本中的单词进行分类？

一周前我做了一些关于文本挖掘的问题，但我有点困惑，但现在我知道我想做 wgat。

情况：我有很多包含 HTML 内容的下载页面。例如，其中一些可以是来自博客的文本。它们不是结构化的并且来自不同的站点。

我想要做什么：我将用空格分割所有单词，并且我想将每个单词或一组单词分类为一些预定义的项目，如姓名、数字、电话、电子邮件、网址、日期、金钱、温度等.

我所知道的：我知道/听说过有关自然语言处理、命名实体识别器、POSTagging、NayveBayesian、HMM、培训和很多分类的事情等的概念，但是有一些不同的 NLP 库具有不同的分类器和方法来做到这一点，我不知道有什么用或做什么。

我需要什么：我需要一些来自分类器、NLP 等的代码示例，它可以将每个单词从文本中单独分类，而不是整个文本。像这样的东西：

有人可以帮助我吗？我对各种 API、分类器和算法感到困惑。

java nlp classification text-mining named-entity-recognition

2011-08-01T02:55:44.133

0 投票

1 回答

585 浏览

r - 拨浪鼓将字符串从 WEKA 加载到矢量文件

我一直在使用 WEKA 做一些文本分类工作，我想试试 R。

问题是我无法将 WEKA 的字符串解析器创建的 String to Vector ARFF 文件加载到 Rattle 中。

查看日志，我得到如下信息：

我的 ARFF 数据文件看起来有点像这样：

任何想法如何将其转换为 R 可读格式？

干杯!

r file-io machine-learning weka text-mining

2011-08-04T15:02:30.263

0 投票

1 回答

946 浏览

string - RapidMiner 情绪分析

我有一组被分类为正面或负面的短消息，它们保存在 WEKA 生成的 ARFF 文件中。我想将此数据移动到 RapidMiner 以进行分类和处理。

作为 RapidMiner 的一个完整的新手，任何人都有关于如何为这些消息构建分类器的示例。消息在一个文件中，格式如下：

谢谢！

string machine-learning weka text-mining rapidminer

2011-08-05T11:57:20.190

0 投票

3 回答

2564 浏览

java - Word Net - 单词同义词和相关的单词结构 - Java 或 Python

我希望使用 WordNet 从一组基本术语中查找类似术语的集合。

例如，单词'discouraged' - 潜在的同义词可能是：daunted, glum, deterred, pessimistic.

我还想识别潜在的二元语法，例如；beat down, put off, caved in等等

如何使用 Java 或 Python 提取这些信息？是否有任何托管的 WordNet 数据库/Web 界面允许此类查询？

谢谢！

java python nlp text-mining wordnet

2011-08-08T15:10:32.803

0 投票

3 回答

2981 浏览

algorithm - 潜在语义分析概念

我读过有关使用奇异值分解 (SVD) 在文本语料库中进行潜在语义分析 (LSA) 的文章。我已经了解如何做到这一点，我也了解 SVD 的数学概念。

但我不明白为什么它适用于文本语料库（我相信 - 必须有语言解释）。有人能从语言的角度解释一下吗？

谢谢

algorithm nlp data-mining text-mining latent-semantic-indexing

2011-08-14T21:49:26.407

1 2 3 4 5 6 7 8 9 10