问题标签 [multimodal]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
102 浏览

deep-learning - 预训练的 ResNet50 可以用于分辨率非常低的图像吗?

需要找到带有文本描述的最佳图像。但是,分辨率非常低,即 50 x 50 像素。

在这种情况下,可以使用预训练的 ResNet50 吗?或者关于更好的架构的任何建议?谢谢!

0 投票
0 回答
83 浏览

python - 如何在多模式深度自动编码器中为每个模型输入传递一个数据数组?

我正在研究用于降维的深度多模态自动编码器,并且我正在遵循此代码(https://wizardforcel.gitbooks.io/deep-learning-keras-tensorflow/8.2%20Multi-Modal%20Networks.html

我想知道的是如何重建原始数据?model.fit 中传入的 input_data_1 和 input_data_2 是什么?以及如何为每个模型输入传递一个数据数组?

0 投票
1 回答
158 浏览

python - 如何定义 2 个 keras 形状(无,4096)层的 Kronecker 产品层?

假设有 2 个不同/独立的 keras 层, encoder_1 & encoder_2两者的输出形状均为(None, 4096). 现在如何定义 keras 多层,它给出(None, 4096, 4096)了它的输出形状。这和克罗内克产品一样吗?如果不一样,请展示如何实现名为 encoder_1 和 encoder_2 的 2 层的 Kronecker 产品?

0 投票
1 回答
248 浏览

tensorflow - ValueError: 层 conv1_pad 的输入 0 与层不兼容:预期 ndim=4,发现 ndim=2。收到的完整形状:[无,260]

我收到多模式问题的错误。输入形状:img 输入:- (3740, 150, 150, 3),字输入:- (3740, 260) 其中 3740 是样本数。这里已附加模型作为函数,其中 build_img_encoder 描述 IMG 编码器模型, build_wrd_conv 描述 word_encoder 部分,它们是模型图图像中可见的 2 个输入分支

带形状的模型汇总图

在运行模型拟合模型开始训练并运行几乎一个完整的时期,然后出现此错误:-

那么发生了什么事?,看起来我在某个地方错过了一些形状。

0 投票
0 回答
49 浏览

machine-learning - 如何创建多模态数据集?

我想制作基于多模态数据集的音乐推荐系统。我一直在寻找公开可用的数据集,但我在任何地方都找不到。我想知道在哪里可以获得音乐或书籍的多模式数据集?我观看了很多 YOUTUBE 视频,但没有找到任何他们教如何创建多模态数据集的视频。

0 投票
0 回答
33 浏览

cluster-analysis - 如何在python中实现三向聚类

我相对是数据科学领域的学习者。最近我遇到了这些概念,我真的很想实现它们——即多模式集群应用程序的概念。(从这里我得到了这个想法 - https://scikit-learn.org/stable/modules/biclustering.html

我知道不同的聚类算法,如 DBSCAN、OPTICS、K-Means(非常流行)等。我知道在所有这些算法中,单列数据点被考虑用于聚类数据集。

假设某人有一个数据集,如: http: //archive.ics.uci.edu/ml/datasets/Iris

如何使用 3 列或更多列来聚类此 Iris 数据集中的不同类别,即按照定义的术语如何在此类数据集上实现多模态分类。

或者是新人——我怀疑我是否将它与多维立方体概念混淆了。如果有人可以向我澄清和解释这一点,那将是一个很大的帮助。

0 投票
1 回答
84 浏览

python - 绘制从多峰分布确定的单峰分布

我使用GaussianMixture来分析多峰分布。从 GaussianMixture 类中,我可以使用属性means_和访问均值和协方差covariances_。我现在如何使用它们来绘制两个潜在的单峰分布?

我想过使用scipy.stats.norm但我不知道该选择什么作为loc和的参数scale。所需的输出将类似于附图所示。

这个问题的示例代码是从这里的答案修改的。

0 投票
0 回答
15 浏览

mean - 多模态:集中趋势和分散

我想提出这样的论点:均值不是多峰分布集中趋势的最佳描述,标准差也不是多峰分布分散度的最佳度量。对已发表文章的引用将非常有帮助。或者,讨论尝试测量多峰分布的集中趋势和分散是否有意义。我有数千个多峰高斯混合分布,并且我知道每个分量的均值、标准差和权重。我想说的是,权重最大的分量的均值和 SD 是一个更有效的估计。

0 投票
0 回答
24 浏览

python - 使用图像和测量的物体重量的多模态神经网络

我目前正在从事一项分类任务,将传送带上的物体图像分类为几个不同的类别。为此,我使用了通过 Python Tensorflow 实现的 MobileNet 架构。此外,物体的重量(例如 1.2 公斤)是可用的,所以我正在考虑通过在图像数据之外使用重量来使神经网络成为多模态,以实现更好的预测。

我正在考虑通过连接它们然后应用softmax来组合两个输入(图像和权重)。此外,输入的权重似乎很有用,因为图像数据比权重重要得多(可能是 95% 到 5%)。

我的问题:

  • 对于权重数据分类,您会推荐哪种模型架构?
  • 你将如何组合这两个输入?

提前致谢。

0 投票
1 回答
90 浏览

python - 深度学习 - 为 3D 多模态数据生成补丁

我选择了使用深度学习对脑肿瘤进行语义分割的问题。我正在使用 BRATS2015 数据集。它有 274 个患者 MRI 扫描,每个扫描大小为 240x240x155。每位患者有四种模式(T1、T2、T1c、FLAIR)。所以我将这些模式用作网络中的渠道。

在理想情况下,我的 3D UNet 网络的输入可以在 channels_last 模式下具有形状 (Batch_size, 240, 240, 155, 4)。但是显卡显然不具备处理这种大小的数据的能力。因此,我需要将我的 MRI 扫描转换为补丁。

这就是我感到困惑的地方。获取单通道 3D 数据的补丁相对容易。为此,我们有许多库和辅助函数。我面临的问题是为多模式数据生成补丁,即带有通道的 3D 数据。

  • 我已经想到了为每个通道分别生成补丁并连接最终结果的想法,但我相信如果我单独处理它而不是直接为多模式数据生成补丁,我可能会丢失一些多通道信息。

我查看了patchify我们可以使用以下内容生成补丁的库

但我不确定如何生成多模式补丁。有没有办法用patchify或任何其他库/帮助函数来做到这一点?