问题标签 [neon]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1245 浏览

iphone - 为什么在 XCODE4 上使用“-mfpu=neon”会导致错误?

我最近尝试在我的应用程序中使用 NEON。许多帖子和问答告诉我必须指定“-mfpu=neon -mfloat-abi=softfp”才能在 iphone 上使用 NEON。

但是,当我将此选项添加到 XCODE 4 中的“其他 C 标志”部分时,出现如下构建错误:

{标准输入}:1270: 所选 FPU 不支持指令 -- `vmov.f32 s0,#2.000000e+00'

我还尝试打开/关闭“Compile for Thumb”,但没有区别。

为什么会发生这个错误??以及如何在 XCODE 4 上启用 NEON 功能?

0 投票
3 回答
420 浏览

iphone - iPhone上两个数组之间按位与的最快方法?

我有两个图像块存储为一维数组,并在它们的元素之间进行了以下按位与运算。

实际上,我必须做这项工作大约 220,000 次,所以它在 iphone 设备上变得非常慢。

我怎样才能在 iPhone 上加速这项工作?

我听说 NEON 可能很有用,但我对它不是很熟悉。此外,NEON 似乎没有按位与...

0 投票
3 回答
4904 浏览

assembly - 使用 GNU 汇编器的 NEON 汇编手册/教程

是否有任何资源可以涵盖将 NEON Assembly 与 GNU 汇编器一起使用的语法?我读过该语法与使用 RVCT 汇编器的语法不同,但这是我唯一能找到的文档。有什么好的资源可以让我开始吗?

0 投票
2 回答
435 浏览

ipad - ipad2 霓虹灯浮点速度与 ipad1

在 ipad1 和 ipad2 上测试 NEON 指令时,我注意到 ipad2 上的代码几乎没有任何加速,其中大多数功能实际上在 ipad2 上的运行速度比在 ipad1 上快得多。

这适用于 VMUL、VLD1、VADD 和 VSUB 等指令,它们使用 q0 等四字寄存器进行 FFT 等操作。

此外,我注意到苹果自己的 FFT 函数 vdsp_fft_zrip 也没有为 ipad2 加速。

所以问题是,对于四字 SIMD 类型的指令,ipad2 NEON 的执行速度是否比 ipad1 NEON 引擎快?

0 投票
2 回答
901 浏览

android - Android 上的 NEON 优化库

ARM 网站声明有某些 NEON 优化库并显示了使用它们的示例。试图将它们整合到利用 NEON 架构的 Android 项目中是不可能的。头文件和库不存在。

有没有办法手动将它们导入 Android 项目?我对 OpenMAX 特别感兴趣。

0 投票
3 回答
4175 浏览

android - arm_neon.h 是否缺少所有 float16_t 类型?

我正在使用 NEON SIMD 指令编写 Android 应用程序的一部分,针对 Cortex A8 处理器。根据此参考手册,NEON 支持 16 位和 32 位浮点数,即float16_tfloat32_t。当我尝试使用float16_t及其所有关联的向量类型时,我收到一条错误消息,指出此类型未声明。在查看 的内容时arm_neon.h,我发现这个类型确实是未声明的。

是否有一个原因?ARM 的高级 SIMD 显然支持这样的数据类型和指令。有没有人遇到/解决这个问题?它在任何地方都有记录吗?

0 投票
1 回答
6412 浏览

android - 使用 NEON 内在函数除以浮点数

我当时正在处理四个像素的图像,这armv7适用于Android应用程序。

我想将一个float32x4_t向量除以另一个向量,但其中的数字从大约0.7到变化,在3.85我看来,唯一的除法方法是使用右移,但这是一个数字2^n

另外,我是新来的,所以欢迎任何建设性的帮助或评论。

例子:

如何使用 NEON 内在函数执行这些操作?

0 投票
2 回答
1281 浏览

android - 与霓虹内在函数中的浮点数比较

我认为这是一个愚蠢的问题,但我尝试了一天没有运气来解决这个问题,所以这里是。

我有四个向量的寄存器(float32x4),我想对其中一些进行一些处理,另一个我想将其设置为 0。

例如c中的这个问题:

所以第一个不会处理,但另一个会,所以我需要一个寄存器,第一条车道我有 0,另一个有结果。

但我不知道如何在霓虹内在函数上做到这一点。

我知道有一个 vcltq_f32 但我尝试了这个但没有结果。

0 投票
3 回答
5374 浏览

android - Android NEON 库

是否有任何其他针对数学霓虹灯优化的免费矢量库?我想在我的代码中利用霓虹灯,我有很多对象,我正在做很多简单的向量物理数学,比如添加向量、相乘、点它们,这些是 3d 向量,但如果我能做很多更快的 2d 也应该没问题,问题是,是否值得使用霓虹灯?例如让我们取 100000 个点,我需要计算它们的运动、碰撞等。我目前正在使用我自己的数学,它基于内联函数,可以说我也想使用我假设的带有矩阵的霓虹灯库,目前我我正在为此使用 glm,它做得很好,但它会更快吗?在我的情况下,ndk 中 arm-abi 和 arm7-abi 之间的速度优势约为 30%,neon 可以更快,或者我的代码在编译时被转换为 neon 吗?

0 投票
3 回答
10265 浏览

math - 使用 NEON 在 ARM 汇编中对四字向量中的所有元素求和

我对组装很陌生,虽然手臂信息中心通常很有帮助,但有时这些说明会让新手有点困惑。基本上我需要做的是在一个四字寄存器中对 4 个浮点值求和,并将结果存储在一个单精度寄存器中。我认为指令 VPADD 可以做我需要的,但我不太确定。