问题标签 [mali]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
77 浏览

android - 使用 adreno 650 的 OpenCL 低性能

我在 Android 手机上使用 adreno 650 和 mali G72 MP12 进行了一些测试。我惊讶地发现,在 100 个特征周期中,马里的速度更快,然后几乎等于肾上腺素。

我还发现,如果您使用 arraySecondEvent.wait() 并将事件返回添加到内核调用。它使用肾上腺素杀死性能。

经过 1 周检查后,我看到的唯一一个非常大的问题是 enqueueReadBuffer 非常非常慢。也许是肾上腺素驱动器的另一个特殊用途。

但是对于 512*512 的缓冲区大小,超过 65 毫秒是灾难性的。可怕。

因为我已经说过,如果你从内核调用一个函数,你需要使用 adreno 将函数声明为静态函数,否则它非常非常慢。

所以我想我在使用 enqueueReadBuffer 和 adreno 时做错了。enqueueReadBuffer 或 enqueueWriteBuffer 之一需要将近 60 毫秒。有时第一次有时另一个。缓冲区的大小无关紧要。很奇怪!

也许缓冲区的类型?

所以我认为mali 和adreno 的实现有很大不同。

************ 上次测试 ************

从内核调用中删除事件会发送调试时间,但不是内核特征的结束。

因为我总是有 60 毫秒的问题,所以我每次调用 queue.flush(),我发现这是内核执行,它在 adreno 上非常慢。而 60 毫秒的延迟是在 enqueueReadBuffer 或 enqueueWriteBuffer 之前执行内核所需的时间。

因此,有人可以确认 adreno 650 或 qualcomm 上的 qualcomm OPENCL 通常非常慢。

0 投票
1 回答
22 浏览

arm - MALI MIDGARD GPU 中的点积单元

您好,我使用的是 mali t-624 gpu(Midgard Family Gpu)。你能告诉我这些gpu是否支持点积,因为我找不到任何信息。您还可以告诉我一个用 opencl 编写的内核,它可以为我提供点积的最佳执行时间。

0 投票
1 回答
76 浏览

c++ - Arm Mali T-624 执行时间为 12666 毫秒

我在大学的论文中使用这个 GPU

我在这个东西上运行了很多不同的内核,执行时间停留在 12666.6689 毫秒,即使我有一个包含 88 条指令 * 100m 次迭代的循环。

唯一可以使执行时间增加的事情是 x!=0在 for 循环语句中添加

为什么这种事情总是发生?我无法理解:例如,8800 万条指令与 100 万条指令具有相同的执行时间,尽管我没有那么多单元来同时执行像 100 万条指令那样的大内核。

为什么x!=0在循环中添加单个语句会使执行时间增加那么多,而在 for 循环中添加几个语句却没有?

0 投票
0 回答
66 浏览

matrix - 为什么在 Mali 的 GPU 上矩阵乘法行 x 行比行 x 列慢 4-5 倍?

最近在使用计算机着色器开发矩阵乘法时遇到了一个问题。一个常见的矩阵乘法 C = AB。为了让记忆连续,我转置了B矩阵。我认为这可以加快运行速度。但是在测速的时候发现line X的形式比line X慢了好几倍,摸索了半天没看懂,把问题写下来求救!! !

  • 我的环境 Mali G77(联发科天玑1200)
  • 矩阵尺寸:4x2048x2048
  • B矩阵尺寸:4x2048x2048

时间比较:

  • 第x行:约9s
  • 第x列:约1.6s
  • 列x列:约3.3s

问题演示:https ://github.com/yikox/ProfilerDemo

着色器代码:

0 投票
0 回答
27 浏览

arm - Arm Mali T-624 gpu 算术流水线深度内核

我正在研究 Arm Mali T-624 板,我想知道 gpu 算术流水线有多少阶段,我正在运行以下内核

我正在从 1 到 512 个工作组运行这个内核,同时我将工作项的数量保持在第 1 位, 在此处输入图像描述

所以这个过期的结果是算术流水线大约有 38 个阶段长

你认为它是正确的吗?

0 投票
1 回答
31 浏览

galaxy - 三星 Galaxy Android 的 Mali GPU 驱动程序源中使用了哪一个?

如您所知,Samsung Galaxy 的内核源代码中有几个 Mali Midgard 目录。

如何知道我的设备中实际使用的是哪一个?