问题标签 [reduction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
multithreading - 从多个 CPU 线程调用 CUDA 内核(使用共享内存)
我编写了一个 cuda 内核,它使用共享内存来执行归约,以便找到数组中的最小值。这与可以在此处找到的众所周知的示例非常相似:
https://www.sharcnet.ca/help/index.php/CUDA_tips_and_tricks#Reduction
当我从单个 CPU 线程运行它时,它适用于每个块的任意数量的 CUDA 线程(最多我的设备的最大值:1024)。
当我从一些 (20) 个 CPU 线程运行它时,每个块 (256) 的 CUDA 线程数量足够少,它工作正常。
但是,一旦我用多个 CPU 线程增加 CUDA 线程的数量,一切都会崩溃!
我试图删除我执行归约的内核行(因此仅在数组上保留一些操作,但在 CUDA 线程之间没有任何通信),并且它适用于任何数量的 CPU 线程中每个块的任何数量的 CUDA 线程.
关于我的问题来自哪里的任何想法?任何想法如何解决它?在此先感谢您的帮助!
PS:我使用的是单个 GTX650。
PS2:对不起,如果我的英语水平有点差,那不是我的母语....
php - 根据需要加载字体的 PHP 脚本
我正在寻找一种“按需”添加字体的方法。
在我构建这个特定站点时,我最初选择了 4 种 Google API 字体。现在它已经长大了,我想将字体选择增加到 9 个选项。
我试图找出一种方法来通过 PHP 完成这项工作,但我是一名设计师,所以我的 php 是“嗯”。
这是我所知道的 php 的“草稿”。
有人想快速帮助我吗?
然后在网页中。
此外,链接标签需要一个 | 在字体名称之间......我不知道该怎么做。google 提供的所有格式为 <link href='http://fonts.googleapis.com/css?family=Cardo:400,400italic|Crimson+Text:700italic|Euphoria+Script|Philosopher:400,400italic|Vollkorn :400,400italic,700|Josefin+Slab:400,700|Redressed|Aladin|Rouge+Script' rel='stylesheet' type='text/css' >
谢谢!
cuda - CUDA SDK 中的 Reduce3 示例
我正在阅读 CUDA SDK 中的缩减优化,并且在从 reduce2 到 reduce3 发生的事情之后遇到了问题:
我无法想象 reduce3 的第一级减少尝试做什么,或者为什么线程数减少了一半。谁能给我一些指示?
functional-programming - 实践中的 Lambda 演算
如何选择语言,实际计算的一个 lambda 项 (λx.y)((λx.xxx)(λx.xxx))?换句话说,需要一种语言对正常的顺序归约和弱类型系统。
r - 从嵌入数据框中的列表中获取虚拟 (T/F) 变量
我有一个 data.frame,其中的单元格包含一个术语列表。
我希望为该列表中找到的每个术语生成一个新变量,指示该术语是否存在于该给定单元格中。
我在 data.frame 中有多个不同的此类实例,并且不知道列表的组成。
一个示例数据框
由此,我希望获得
algorithm - 将 TSP 降低到哈密顿电路
如何将旅行商问题的(决策版本)转换为哈密顿电路问题(即如何将 TSP 简化为 HCP,以便如果我有 HCP 的解决方案,那么我将使用该解决方案来解决 TSP 问题)?
matrix - 在 OpenCL 中减少矩阵行
我有一个在 GPU 中存储为一维数组的矩阵,我正在尝试制作一个 OpenCL 内核,它将在该矩阵的每一行中使用归约,例如:
假设我的矩阵是 2x3,元素为 [1, 2, 3, 4, 5, 6],我想要做的是:
显然,正如我所说的减少,实际的回报可能是每行不止一个元素:
然后我可以在另一个内核或 CPU 中进行最终计算。
好吧,到目前为止,我所拥有的是一个内核,它进行缩减但使用数组的所有元素,如下所示:
执行此操作的实际缩减内核是那个(实际上是我在 stackoverflow 中从这里得到的):
c - MPI_Reduce 没有按预期工作
我对 MPI 很陌生,我正在尝试使用 MPI_Reduce 来查找整数数组的最大值。arr
我有一个size的整数数组arraysize
,这是我的代码:
我的程序在 8 个进程上编译并运行没有问题,但是屏幕上没有打印任何内容。出于调试目的,我将条件更改为if(my_process_id)
(不带!
)并运行。然后我得到一个奇怪的输出,例如00030000
3 可能不确定地出现在这个列表中的任何位置。3 是我的数组的第一个值(但不是最大值)。我一般都知道并行编程(不是专家,但我通常知道我在做什么)但我对 MPI 很陌生,因为我可能会犯一个明显的错误。我在网上看到的所有教程都有与我相似的代码示例,我不知道我做错了什么。
谢谢,
能。
turing-machines - L = {T | T 是识别 {00, 01}} 的图灵机 证明 L 不可判定
L = {<T> | T 是识别 {00, 01}} 的图灵机
证明 L 是不可判定的。
我真的很难理解这里使用的减少。
我不是要免费午餐,只是朝着正确的方向前进。
for-loop - OpenMP 到 CUDA:减少
我试图弄清楚如何for reduction()
在 CUDA 中使用 OpenMP 的等价物。我在网上做了一些研究,但我尝试过的都没有奏效。编码:
我知道for reduction()
OpenMP 中的作用......它使 for 循环的最后一行成为可能。但是我怎样才能用 CUDA 来表达同样的东西呢?
谢谢!