问题标签 [neon]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
421 浏览

arm - ARM Neon:用于减法的 VPADAL

我正在使用VPADAL.U32指令来大大提高我的加法代码速度。但是,我需要用累积和进位来减去一些东西(正是我得到的加法)。

一厢情愿还是实际上可能?

据我所知,我需要减少我的第二个操作数,而不是它的位......执行VPADAL,然后对 1 进行位测试,并从结果进位中减去 1(得到 0 或 -1 ——我的积累)。

我是否在某处错过了一种神秘的技术?

0 投票
2 回答
865 浏览

android - 具有相同内核的 ARM SoC 之间有很大区别吗?

具有相同内核的两个 ARM SoC 之间是否存在很大差异(在性能方面)?

例如,可以预期在以下之间有哪些差异(除了那些可归因于不同时钟速率的差异):

  • Apple A5,基于 1GHz 双核 ARM Cortex-A9
  • 三星 Exynos GT-I9100,基于 1.2 GHz 双核 ARM Cortex-A9

某些具有相同内核的 ARM SoC 是否比其他的更好?(如果是,为什么?)

0 投票
3 回答
836 浏览

assembly - ARM NEON:哪对指令必须等待回写?

在 ARM NEON 文档中,它说:

[...] 一些指令对可能必须等到值被写回寄存器文件。

我没有遇到定义可以使用转发结果的指令对和必须等待回写的指令对的列表。

有谁知道列出这些对的表格或文档?

0 投票
2 回答
2771 浏览

c++ - NEON 向量化无符号字节乘积的总和:(a[i]-int1) * (b[i]-int2)

我需要改进一个循环,因为我的应用程序调用了数千次。我想我需要用 Neon 来做,但我不知道从哪里开始。

假设/前提条件:

  • w始终为 320(16/32 的倍数)。
  • pa并且pb是 16 字节对齐的
  • ma并且mb是积极的。

这种矢量化它的尝试效果不佳,也不安全(缺少clobbers),但展示了我正在尝试做的事情:

0 投票
3 回答
2995 浏览

assembly - 使用 arm neon 进行 Rgb 到灰度转换

我正在尝试有效地从 rgb 转换为灰度,所以我从这里得到了一个函数,它解释了如何从 rgba 转换为灰度。现在我正在尝试做同样的事情,但只使用 rgb。我改变了一些东西,但似乎效果不佳。我不知道为什么,有人看到我的错误吗?

0 投票
4 回答
1101 浏览

c++ - 为什么这段代码效率不高?

我想改进下一个代码,计算平均值:

我还使用 NEON 内在函数改进了下一个循环:

这是为另一个循环改进的代码:

但它或多或少慢了 30 毫秒。有谁知道为什么?

所有代码都工作正常。

0 投票
1 回答
1295 浏览

assembly - 优化 neon 代码的一些疑惑

我在汇编中编写了一些霓虹灯代码,旨在最大限度地优化。尽管这些数字看起来令人满意,但我有兴趣了解进一步优化它的可能性。然后我遇到了一个在线工具,可以帮助计算每条指令的周期。

这是我的代码的链接:http: //pulsar.webshaker.net/ccc/sample-115d4c29

它清楚地标出了我关注的领域,但我无法清楚地理解这些陈述包含间接费用的原因。

代码段在“注释”区域分为 7 个部分,以便于参考。

提前致谢。:)

0 投票
2 回答
538 浏览

c++ - 使用 opencv 框架的目标 C 项目的最佳编译器标志

我正在使用 opencv 框架编译和 ios 项目,所以我很想知道我的项目最好的编译器标志是什么。

该项目处理了很多矩阵像素,因此我需要从编译器方面获得 SIMD 指令,以便能够尽可能高效地处理此矩阵。

我使用这个标志:-mfpu=neon、-mfloat-abi=softfp 和 -O3,

而且我还发现了其他标志:-mno-thumb -mfpu=maverick -ftree-vectorize -DNS_BLOCK_ASSERTIONS=1

我真的不知道它是否会为我节省大量的 cpu 处理,我通过谷歌搜索,但我没有找到让我有充分理由了解最佳编译器标志的东西。

谢谢

0 投票
4 回答
2201 浏览

arm - ARM NEON 简单低通滤波器矢量化

我有一个简单的单极低通滤波器(用于参数平滑),可以用以下公式解释:

如何在 ARM Neon 上有效地矢量化这种情况 - 使用内在函数?可能吗?问题是每次计算都需要先前的结果。

0 投票
2 回答
1651 浏览

image-processing - 二进制图像上的快速像素计数 - ARM neon 内在函数 - iOS 开发

有人能告诉我一个快速计算二值图像中白色像素数量的函数吗?我需要它用于iOS应用程序开发。我正在直接处理定义为的图像的内存

我正在实现该功能

这显然是可能的最慢的功能。我听说iOS 上的ARM Neon 内部函数可用于在 1 个周期内进行多个操作。也许这就是要走的路??

问题是我不是很熟悉,目前没有足够的时间学习汇编语言。因此,如果有人可以针对上述问题发布 Neon 内在代码或 C/C++ 中的任何其他快速实现,那就太好了。

我能在网上找到的霓虹内在函数中唯一的代码是 rgb 到灰色的代码 http://computer-vision-talks.com/2011/02/a-very-fast-bgra-to-grayscale-conversion-手机/