问题标签 [amd-processor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c - 如何在 C 中预取指向 AMD Opteron 6168 的指针?
我正在用 C 编写一个多线程程序,其中一个核心定期从链表的头部抓取一个项目,而其他核心将项目附加到列表的后面(使用 CAS 魔法来保证线程安全,其他人为我提供了) . 如果核心从列表的头部获取一个项目,我的程序似乎会运行得更快,它只是为下一个项目启动预取,这肯定是在另一个核心的缓存中。
目前我的目标是 AMD Opteron 6168,在 Debian Linux 上使用 gcc 编译:我试图找到这方面的文档,但我在陌生的水域。我所能找到的只是使用 -O3 来启用编译器插入的预取(我认为是 for 循环)以及一些 AMD 预取指令名称的提及,例如 PREFETCHW。
我不知道如何找到我所追求的参考,或者如何将这样的语句插入到 C 中,也许作为一个程序块?
optimization - AMD Geode 优化参考
我正在对嵌入式 AMD Geode LX 上的一些机器视觉代码进行一些重大优化。我打算重写 Assembly 中计算密集的部分,大量使用 x86 MMX 指令。
基本的 MMX 指令集有很多参考资料,但我正在寻找针对 Geode LX 进行优化的具体指南。
AMD 网站上有一些 AMD64 和 Athlon 优化指南,但我没有找到任何关于 Geode 的具体信息。
我正在寻找有关 Geode 特定事物的信息,例如流水线、不同指令的速度以及其他速度关键信息。有关 Geode 工作原理的信息以及改进代码的技巧将非常有帮助。
我正在使用 AMD Geode LX 800。
[编辑] 这个网站正是我正在寻找的,除了它只关注 AMD Athlon 和 Opteron 处理器: http ://www.agner.org/optimize/
opencl - OpenCL 双三次插值内核因错误 CL_EXEC_STATUS_ERROR_FOR_EVENTS_IN_WAIT_LIST 而失败
双三次插值是一种常见的插值方法,但我在 OpenCL 上找不到任何可行的实现。我决定自己在 OpenCL 上编写双三次插值,但是......
我对内核程序有一些问题。
当我运行内核执行时,程序失败并出现错误 CL_EXEC_STATUS_ERROR_FOR_EVENTS_IN_WAIT_LIST。没有关于错误原因的任何其他信息。我正在使用 google 代码的 javacl 绑定形式:http ://code.google.com/p/javacl,Ubuntu linux 10.10 上的 AMD Accelerated Parallel Processing SDK 2.3,硬件 AMD Radeon 5xxxHD
我还没有在 ubuntu 上打开用于 AMD APP SDK 的调试器(
如果我取消注释 float4 val=read_imagef(signal, sampler, (float2)(x+iX,y+iY)); 并评论双三次插值“float4 val = ...”的计算都没有任何错误(但使用双线性插值)。我认为这个错误是因为无效的内存访问或寄存器内存溢出。
我重写了这个程序以使用本地内存,但它仍然无法正常工作
你知道这个问题的任何决定。
Java 源代码 + maven2 构建。使用命令“mvn clean compile exec:java”编译并运行demo。
问候,伊戈尔
c++ - 保证内存排序和正确的编程实践
关于我在下面描述的顺序,我有一些相关的问题。
鉴于这些排序保证,我在很多地方都不需要明确的围栏。但是,我如何向编译器,特别是 GCC 表达“围栏”?也就是说,程序顺序的保证只适用于优化器不重新排序我的程序。
是否有通用/流行的新芯片具有不提供此类保证的通用内核?
我对 C++0x 的交错概念有点困惑。我必须使用“原子”类来利用这些保证,还是草案中的其他方面也提供了利用这些保证的方法?
内存排序
Intel 和 AMD,至少对于 x86_64,都保证内存加载相对于在单个处理器上完成的存储操作是连续的。也就是说,如果某个处理器执行这些存储:
- 商店 A <- 1
- 商店 B <- 2
- 商店 C <- 3
在其他处理器看到 C(3) 的那一刻,它保证也看到以前的存储 A(1) 和 B(2)。现在,处理器之间的可见性可能是交错的,但来自任何给定处理器的存储顺序也将是连续的。
当处理器 0 读取处理器 1 存储的值,然后写入一个值时,它们还具有传递保证,即处理器 2 读取新值也必须从处理器 1 中看到该值。
忽略处理 IO 和特殊设备的特殊情况。我只对一般的内存保证感兴趣:我在这里的排序只是我最感兴趣的一点,因为它对并发算法最重要。
amazon-ec2 - ec2实例cpu类型
您如何为新的 ec2 实例选择 AMD 或 Intel CPU?
x86-64 - x86-64 处理器的 NUMA 文档?
我已经查找了 X86-64 处理器的 NUMA 文档,不幸的是我只找到了 NUMA 的优化文档。
我想要的是:如何在系统中初始化 NUMA(这将包括获取系统的内存拓扑和处理器拓扑)。有谁知道关于 X86-64 AMD 和 Intel 处理器的 NUMA 的好文档?
c++ - 无法创建安装 IT++、ACML 的可执行文件
我想用 ACML 安装 IT++
我首先安装了 ACML,然后做了: export LDFLAGS=$LDFLAGS:"-L/opt/acml4.4.0/ifort32/lib" export CPPFLAGS=$CPPFLAGS:"-I/opt/acml4.4.0/ifort32/include"
以便 IT++ 在配置自己时可以找到它。
接下来我进入 IT++ 目录并输入“./configure”
然后我收到以下错误:
我去了 config.log,有趣的行如下:
为什么要这样做?
instruction-set - AMD Open64:优化的数学函数
Open64 是否有与Intel Short Vector Math Library Operations等价的东西。
谢谢你。
opencl - AMD CPU 与 Intel CPU openCL
我们想和一些朋友一起使用 openCL。为此,我们打算购买一台新计算机,但我们询问了 AMD 和 Intel 之间最好的使用 openCL 的方法。显卡将是Nvidia,我们没有选择显卡,所以我们开始想买一个intel cpu,但经过一些研究我们发现可能是AMD cpu 与openCL 更好。我们没有找到比较两者的基准。
所以这是我们的问题:AMD 的 openCL 比 Intel 更好吗?为了 openCL 的性能,拥有带有 AMD cpu 的 Nvidia 卡是否有问题?
谢谢,
格温
opencl - 内存分配 Nvidia vs AMD
我知道 AMD GPU 上的单个 GPU 内存块有 128MB 的限制。Nvidia GPU 是否有类似的限制?