问题标签 [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - HIPAA 是否应该不允许移动原生应用程序中的离线存储?
HIPAA 是否应该不允许移动原生应用程序中的离线存储?我不知道 HIPAA 中是否已经有这种规定。我认为没有这样的事情。
如果你觉得这个问题不需要在这个论坛上问,我要求你完整阅读这个问题并为这个问题提出一个程序化的解决方案。
出现这种情况的主要原因是,一旦设备越狱或植根,有关移动开发的所有安全考虑可能都特别在 iOS 中似乎已被入侵。
http://anthonyvance.com/blog/forensics/iphone_encryption/
人们声称,如果手机被植根,iOS 中的钥匙串访问可能会受到影响。
我认为唯一没有受到任何怀疑的是sqlCipher。
如果您发现 SqlCipher 有任何缺陷,请分享。
而且我认为,在人们找到一种防盗方式来管理手机中的离线数据之前,人们可以避免为强制符合 HIPAA 的 EMR 应用程序制作离线功能。
可以说,当人们不顾一切地想要破解它时,任何系统都可能被破解。但我觉得移动设备很容易成为目标。当你失去你的手帕时,你可能会失去它。
请分享您的观点。
amazon-s3 - 如何将文件从 S3 复制到 Amazon EMR HDFS?
我在 EMR 上运行 hive,需要将一些文件复制到所有 EMR 实例。
据我了解,一种方法是将文件复制到每个节点上的本地文件系统,另一种是将文件复制到 HDFS,但是我还没有找到一种简单的方法来直接从 S3 复制到 HDFS。
解决此问题的最佳方法是什么?
python - hadoop 流:在 EMR 上导入模块
上一个问题解决了如何为 hadoop 流导入诸如 nltk 之类的模块。
概述的步骤是:
您现在可以导入 nltk 模块以在 Python 脚本中使用:import zipimport
我有一份工作要在Amazon 的 EMR上运行,但我不确定将压缩文件放在哪里。我是否需要在引导选项下创建引导脚本,还是应该将 tar.gz 放在 S3 中,然后放在额外的 args 中?我对这一切都很陌生,如果能提供一个可以引导我完成整个过程的答案,我将不胜感激。
mapreduce - 在亚马逊 emr 上跑猪超级慢
我使用 AWSSDKforPHP 启动了一个 emr 实例来运行 pig 脚本,发现它的速度慢得让人难以忍受。如果我在猪本地模式下在 ec2 实例上运行相同的猪作业,只需 10 分钟,如果我启动 emr 以在 mapreduce 模式下运行猪作业,则需要几个小时。这很奇怪。我曾经在内部hadoop集群上以mapreduce模式运行类似的pig作业,速度非常快。我需要指定任何配置设置吗?我已经为 emr 设置了 1 个主节点和 4 个从节点,还不够吗??
谢谢。
mapreduce - 使用 hadoop-streaming-0.20.205.0.jar 作为自定义 JAR,Amazon Elastic Mapreduce
当我使用 Amazon Elastic Mapreduce 时,我想将使用 hadoop-streaming-0.20.205.0.jar 用于 hadoop 流而不是 Elastic Mapreduce 的流。我需要设计自定义分区器、输入格式、输出格式等等。
所以我尝试创建一个新的自定义 JAR 作业
使用 EMR 的流作业执行 python 脚本 mapper.py 和 reducer.py 没有任何问题。
但是,我收到以下错误消息
我的问题的重点是
- 我的工作是否存在潜在问题?我不知道还有哪些问题,因为我的工作在访问 mapper.py 和 reducer.py 时失败了。
- 如何访问我的 mapper.py 和 reducer.py?
- EMR 的流式作业似乎使用 /home/hadoop/contrib/streaming/hadoop-streaming.jar。我可以得到这个来源吗?如果我得到这个来源,我的问题就可以解决。谢谢。
java - 使用 Java 代码进行映射器和化简器的 EMR 流式处理作业
我目前使用 ruby 编写的 mapper 和 reducer 代码运行流式作业。我想将这些转换为java。我不知道如何使用 java 使用 EMR hadoop 运行流式作业。amazon 的 cloudburst 的 EMR 网站上给出的样本太复杂了。以下是我当前如何运行作业的详细信息。
开始工作的代码:
添加步骤的代码:
映射器代码从上面提到的作为 EMR 的缓存参数的 csv 文件读取,并从也有一些 csv 文件的输入 s3 存储桶读取,进行一些计算并将 csv 输出行打印到标准输出。
java - 如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定映射配置和 java 选项?
我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置,例如mapred.task.timeout 、 mapred.min.split.size等。
当我们使用 ruby 或 python 等外部脚本语言运行时,我们可以使用以下方式来指定这些配置:
ruby elastic-mapreduce -j --stream --step-name "mystream" --jobconf mapred.task.timeout=0 --jobconf mapred.min.split.size=52880 --mapper s3://somepath/mapper. rb --reducer s3:somepath/reducer.rb --input s3://somepath/input --output s3://somepath/output
我尝试了以下方法,但都没有奏效:
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -m,mapred.min.split .size=52880 -m,mapred.task.timeout=0
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -jobconf,mapred.min.split .size=52880 -jobconf,mapred.task.timeout=0
我还想知道如何使用 EMR 中的自定义 jar 将 java 选项传递给流式作业。在 hadoop 上本地运行时,我们可以按如下方式传递它:
bin/hadoop jar job.jar input_path output_path -D< some_java_parameter >=< some_value >
amazon-s3 - 将 Hive 表导出到 S3 存储桶
我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表,并从 CSV 文件中填充它,如下所示:
我现在想将 Hive 表存储在 S3 存储桶中,以便在终止 MapReduce 实例后保留该表。
有谁知道如何做到这一点?
amazon-web-services - AWS Elastic Map Reduce Hive 运行 v0.5?缺少功能:“str_to_map”、“反射”
在 Amazon AWS 的 Hive 的 Elastic Map Reduce 实施中,未定义UDFstr_to_map
和。reflect
str_to_map 记录在这里:https ://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-StringFunctions
并与 Hive 0.7 一起发布:https ://issues.apache.org/jira/browse/HIVE-1779
但是在 AWS EMR 中运行 Hive 时,show functions
不会显示str_to_map
或reflect
作为受支持的功能。
因此,EMR EC2 节点似乎安装了 hive-0.5。
这似乎……错了。
我很确定 Hive 0.7 在 EMR 中。如何在 EMR EC2 主节点上获取带有 Hive 0.7 的 AMI?
hl7 - EHR互通/客户端
因此,我正在研究为现有 EMR 构建客户端界面的方法。我已经阅读了大量关于 HL7 的信息以及各种编码方案,但我仍然一无所知。
对于以前使用 EMR 的任何人:是否可以构建一个可以使用 HTTP-POST 和 HTTP-GET 请求将数据拉/推到服务器数据库的 Web 界面?或者您是否会为客户端创建一个单独的数据库,例如 Web 应用程序,然后使用 Mirth 之类的接口引擎在 EMR 数据库和 Web 应用程序之间进行通信?