问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - 文本挖掘 - 从非结构化文本中提取波段名称
我知道这是一个普遍的、开放式的问题。我基本上是在寻求帮助来决定前进的方向,也许是在寻求一些阅读材料。
我正在研究一种进行非结构化文本挖掘的算法,并试图从该文本中提取特定的东西——乐队的名称(单个艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2 行文本)。
一些例子可能是(不是真实事件):
现在,我正在考虑尝试一个分类器,但文本似乎很小,无法为其提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式或算法可以为这类问题产生良好的结果(或者可能没有算法会)。
nlp - Jython 中的 Antlr 与 NLTK
我目前正在用 Java 编写一个标记和解析文本的 NLP 项目。我的主要问题是解析组件,它目前正在使用 Antlr 将标记的文本转换为解析树。由于 Antlr 主要不是作为 NL 解析工具编写的,因此它会占用大量内存并且不容易适应修改语法。我想在 jython 中使用 NLTK 来解决这个问题,特别是考虑到这是一个分布式项目,或者是否有一个简洁的 java 等价物来生成这些解析树,是否建议这样做。
谢谢
text-mining - 使用保存的主题状态用槌推断主题
我使用以下命令从一些文档生成主题模型:
但是,我没有使用该--output-model
选项来生成序列化的主题培训对象。有什么方法可以使用状态文件来推断新文档的主题?训练很慢,如果我必须从头开始创建序列化模型,我需要几天时间才能重新训练。
java - Java 中是否有用于文本分析/挖掘的 API?
我想知道是否有 API 可以在 Java 中进行文本分析。可以提取文本中的所有单词、单独的单词、表达式等的东西。可以告知找到的单词是否是数字、日期、年份、名称、货币等的东西。
我现在开始文本分析,所以我只需要一个 API 即可启动。我做了一个网络爬虫,现在我需要一些东西来分析下载的数据。需要方法来计算页面中的单词数、相似单词、数据类型和与文本相关的其他资源。
Java中有用于文本分析的API吗?
编辑:文本挖掘,我想挖掘文本。提供此功能的 Java API。
java - 大型稀疏矩阵的奇异值分解的Java实现
我只是想知道是否有人知道大型稀疏矩阵的奇异值分解(SVD)的Java实现?我需要这个实现来进行潜在语义分析(LSA)。
我尝试了来自 UJMP 和 JAMA 的软件包,但是当行数 >= 1000 和 col >= 500 时它们会窒息。如果有人能指出我的伪代码或那里的东西,那将不胜感激。
java - 我如何根据姓名、数字、金钱、日期等对文本中的单词进行分类?
一周前我做了一些关于文本挖掘的问题,但我有点困惑,但现在我知道我想做 wgat。
情况:我有很多包含 HTML 内容的下载页面。例如,其中一些可以是来自博客的文本。它们不是结构化的并且来自不同的站点。
我想要做什么:我将用空格分割所有单词,并且我想将每个单词或一组单词分类为一些预定义的项目,如姓名、数字、电话、电子邮件、网址、日期、金钱、温度等.
我所知道的:我知道/听说过有关自然语言处理、命名实体识别器、POSTagging、NayveBayesian、HMM、培训和很多分类的事情等的概念,但是有一些不同的 NLP 库具有不同的分类器和方法来做到这一点,我不知道有什么用或做什么。
我需要什么:我需要一些来自分类器、NLP 等的代码示例,它可以将每个单词从文本中单独分类,而不是整个文本。像这样的东西:
有人可以帮助我吗?我对各种 API、分类器和算法感到困惑。
r - 拨浪鼓将字符串从 WEKA 加载到矢量文件
我一直在使用 WEKA 做一些文本分类工作,我想试试 R。
问题是我无法将 WEKA 的字符串解析器创建的 String to Vector ARFF 文件加载到 Rattle 中。
查看日志,我得到如下信息:
我的 ARFF 数据文件看起来有点像这样:
任何想法如何将其转换为 R 可读格式?
干杯!
string - RapidMiner 情绪分析
我有一组被分类为正面或负面的短消息,它们保存在 WEKA 生成的 ARFF 文件中。我想将此数据移动到 RapidMiner 以进行分类和处理。
作为 RapidMiner 的一个完整的新手,任何人都有关于如何为这些消息构建分类器的示例。消息在一个文件中,格式如下:
谢谢!
java - Word Net - 单词同义词和相关的单词结构 - Java 或 Python
我希望使用 WordNet 从一组基本术语中查找类似术语的集合。
例如,单词'discouraged' - 潜在的同义词可能是:daunted, glum, deterred, pessimistic
.
我还想识别潜在的二元语法,例如;beat down, put off, caved in
等等
如何使用 Java 或 Python 提取这些信息?是否有任何托管的 WordNet 数据库/Web 界面允许此类查询?
谢谢!
algorithm - 潜在语义分析概念
我读过有关使用奇异值分解 (SVD) 在文本语料库中进行潜在语义分析 (LSA) 的文章。我已经了解如何做到这一点,我也了解 SVD 的数学概念。
但我不明白为什么它适用于文本语料库(我相信 - 必须有语言解释)。有人能从语言的角度解释一下吗?
谢谢