问题标签 [unsupervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 新闻文章的聚类
我的场景非常简单:我有一堆新闻文章(目前约为 1k),我知道其中一些文章涵盖了相同的故事/主题。我现在想根据共享的故事/主题(即,基于它们的相似性)对这些文章进行分组。
到目前为止,我所做的是应用基本的 NLP 技术,包括停用词删除和词干提取。我还计算了每篇文章的 tf-idf 向量,并且还可以根据这些 tf-idf 向量计算余弦相似度。但是现在随着文章的分组,我有点挣扎。我看到了两种主要的方法——可能是相关的——来做到这一点:
1)机器学习/聚类:我已经对现有的聚类库进行了一些尝试,或多或少取得了成功;看这里。一方面,诸如 k-means 之类的算法需要聚类的数量作为输入,我不知道。其他算法需要的参数也不能直观地指定(对我来说就是这样)。
2)图算法:我可以将我的数据表示为一个图,其中文章是节点,加权边表示文章之间的成对(余弦)相似度。例如,我可以首先删除所有低于某个阈值的边,然后可以应用图算法来寻找强连接子图。
简而言之,我不确定从这里最好去哪里——我在这个领域还是很新的。我想知道是否有一些最佳实践,或者某种指导方针,哪些方法/算法可以(不)应用于某些场景。
(编辑:忘记链接到我的相关问题)
python - 从 pylearn2 中的无监督学习中获取数据的学习表示
我们可以使用下面的 YAML 文件(以及 pylearn2/scripts/train.py)在 pylearn2 中训练自动编码器
我们得到的是作为“dae_l1.pkl”的学习自编码器模型。
如果我想将此模型用于监督训练,我可以使用“dae_l1.pkl”来初始化 MLP 的层。然后我可以训练这个模型。我什至可以使用“fprop”函数预测模型的输出。
但是,如果我不想使用这个预训练模型进行监督学习,我只想用自动编码器保存我的数据的新学习表示。
我怎样才能做到这一点?
更详细的问题放在这里
machine-learning - 任何人都可以举一个监督学习和无监督学习的真实例子吗?
我最近研究了监督学习和无监督学习。从理论上讲,我知道有监督意味着从标记的数据集中获取信息,而无监督意味着在没有给出任何标签的情况下对数据进行聚类。
但是,问题是在我学习期间,我总是对确定给定示例是监督学习还是无监督学习感到困惑。
任何人都可以举一个现实生活中的例子吗?
machine-learning - 半监督学习的现成包
我需要用小型火车做NER。我认为该解决方案将通过一些半监督学习算法来实现。是否有任何现成的软件包可以完成这项任务?
classification - 确定对结果影响最大的属性
我有一个 .csv 格式的数据集,如图所示:
第一栏谈到整体成绩的地方:
接下来是每个学生在 6 个科目中的分数。
无论如何,我可以找出哪个主题对整体结果有影响的表现吗?
我正在使用 Weka 并使用 J48 来构建一棵树。
J48分类器的总结是:
此外,我将标记数据离散化为 10 个 bin,并将 useEqualFrequency 设置为 true。现在J48的总结是:
machine-learning - kmeans是可重复的吗?
我想知道如果初始质心点是随机选择的,我们是否会为完全相同的数据集获得大致相同的质心点。
我正在编写一个测试 kmeans 程序,它们似乎不匹配。我想知道我所做的是否正确。
machine-learning - 哪个是正确的学习算法,k-means?
我正在研究一种基本的决策算法,即基于并行循环迭代的时间,决定增加或减少分配给进程的线程数量。我最初的方法是取十次迭代的平均时间,并将其与之前的(平均)时间进行比较,每 5 秒一次。这种方法失败了......它本身总是会将线程计数降低到 1。
所以我转向无监督学习,使用聚类作为决定时间 x是否应该分类为:增加、坚持或减少要分配的线程数量。
基于我正在分类的数据类型,我相信 K-means 是无监督学习的一个很好的起点?我在正确的轨道上......
artificial-intelligence - 用于罕见事件的无监督深度人工神经网络分类器
我构建并训练了一个无监督的深度人工神经网络来检测大型数据集中的高阶特征。
数据包括每日天气测量结果,我的深度网络最后一层的输出是 4 个神经元宽,希望能代表高阶特征。现在我想检测一个非常罕见的事件(例如龙卷风)的概率。10,000 out of 5,000,000
我挑出了导致龙卷风的数据点,但关于数据点的数据很少。
- 创建一个仅由 10,000 个
tornado
数据点组成的训练集,每次期望的输出为 1? - 创建一个由所有 5,000,000 个数据点组成的训练集,当没有龙卷风时输出 0,当有龙卷风时输出 1?但这可能永远无法预测龙卷风。
- 其他解决方案?
machine-learning - 监督学习是分类的同义词,无监督学习是聚类的同义词吗?
我是机器学习的初学者,最近阅读了有关监督和非监督机器学习的内容。看起来监督学习是分类的同义词,无监督学习是聚类的同义词,是这样吗?
r - 如何加快 R 中的主题模型?
背景
我正在尝试使用以下数据和规范文档 = 140 000、单词 = 3000 和主题 = 15 来拟合主题模型。我topicmodels
在 Windows 7 机器(ram 24 GB)上使用 R(3.1.2)中的包, 8 芯)。我的问题是计算只会继续进行,而不会产生任何“收敛”。
我在LDA()
函数中使用默认选项topicmodels
:
运行模型
该模型已经运行了大约 72 小时——并且仍然是我所写的。
问题 所以,我的问题是(a)这是否是正常行为;(b) 如果不是第一个问题,您对做什么有什么建议;(c) 如果第一个问题是肯定的,我怎样才能显着提高计算速度?
附加信息:原始数据包含的不是3000字,而是大约370万字。当我(在同一台机器上)运行它时,它并没有收敛,甚至在几周后也没有。所以我用 300 个单词和 500 个文档(随机选择)运行它,但并不是所有的都能正常工作。我对所有模型都使用了与以前相同的主题和默认值。
因此,对于我当前的模型(请参阅我的问题),我在 tm 包的帮助下删除了稀疏术语。
删除稀疏项
感谢您提前输入阿德尔