问题标签 [dremio]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - ExecutionSetupException:一个或多个节点在查询期间失去连接
在 Kubernetes 上安装的 Dremio 4.6.1 上运行查询时,我们从 Dremio UI 收到以下错误消息:
ExecutionSetupException:一个或多个节点在查询期间失去连接。已识别的节点为 [dremio-executor-2.dremio-cluster-pod.dremio.svc.cluster.local:0]。
Dremio-env 配置具有以下设置: DREMIO_MAX_DIRECT_MEMORY_SIZE_MB=13384 DREMIO_MAX_HEAP_MEMORY_SIZE_MB 未设置 我们正在使用 16G /8c 的工作人员(总共 10 个工作人员) 1 个具有相同配置的主协调器 1G / 1c 的动物园管理员
知道是什么导致了这种行为吗?
通过在工作人员崩溃之前执行实时日志尾部是日志:
dremio - 如何通过 REST API 添加 Amazon S3 数据源?
我在 S3 存储桶的目录中有 CSV 文件。我想将所有文件用作 Dremio 中的单个表,我认为只要每个文件具有与其他文件相同的标题/列,这是可能的。
我是否需要先使用 UI 添加一个Amazon S3 数据源,还是可以使用Catalog API以某种方式添加一个作为源?(我更喜欢后者。)REST API 文档没有提供如何做到这一点的明确示例(或者我只是没有得到它),而且我一直无法找到如何获得“新亚马逊S3 Source”配置屏幕,如文档中所示,可能是因为我没有以管理员身份登录?
例如,假设我有一个数据集拆分为 S3 存储桶中的两个 CSV 文件,该存储桶位于名为examplebucket
的目录中datadir
:
我是否以某种方式将 S3 存储桶/路径设置s3://examplebucket/datadir
为数据源,然后将其中包含的每个文件(part_0.csv
和part_1.csv
)提升为数据集?这足以允许所有文件用作单个表吗?
amazon-ec2 - Apache2 服务器和 Superset,502 代理错误,在加载仪表板时从远程服务器读取错误
简短介绍
我有位于同一个 EC2 实例上的 Apache Superset 和 Apache2 服务器。Apache2 充当代理服务器。它接受 HTTPS 请求并将它们传输到 Apache Superset。Apache Superset 使用gunicorn
.
问题
对 Apache Dremio 数据引擎的请求可能需要一些时间(< 60 秒)。在 Superset 上访问仪表板时,使用带有 SSL 的 DNS 名称,通过代理设置,某些仪表板部分(请求)失败并出现以下错误:
ProxyTimeout
奇怪的是,尽管默认值非常高,但这些错误可能会在几秒钟内出现。
如果通过 IP 地址访问 Superset,则不会出现此问题。
中的错误消息apache2/error.log
:
试图解决问题的方法
问题可能与代理服务器超时或 Superset Web 服务器断开一些连接有关。我的 Apache2 配置:
测试的东西(但不工作):
Timeout
和ProxyTimeout
connectiontimeout
和timeout
(如上所示)Keepalive=On
代理通行证- 不同的 SetEnv
superset_config.py
-> ENABLE_PROXY_FIX,SUPERSET_WEBSERVER_TIMEOUT
此外,使用 构建了类似的代理设置nginx
,错误与此处描述的类似。
任何帮助或想法将不胜感激。非常感谢!
有用的信息
Apache Superset 版本:0.37.2
Apache Dremio 版本:4.1.0
Apache2服务器版本:2.4.29
EC2 实例类型:t3.medium
操作系统版本:Ubuntu 18.04
pandas - 查询完成前 Pyodbc 连接关闭
设置:我在连接到具有大 csv (200Gb) 的 HDFS 的 Centos 7.6 VM 上运行 Dremio。现在我通过 pyodbc 查询 Dremio 但是如果我使用该方法:
它未能给出错误“用户'mpowers'取消查询。使用
但是查询成功(但我不想阅读我的查询,我只想计时)。查看我的 server.out 文件比较两个查询:
vs. 失败的方法
请注意,两者之间的区别是:
在失败的方法上记录查询之前出现,而在成功的方法上出现在记录查询之后。
编辑:为了清楚起见,我不想使用 read_sql,因为我想要运行的查询的读取时间太长,所以我无法准确测量数据库速度。
python - 带有空格的 Sql alchemy 驱动程序无法解析
我正在使用驱动程序“Dremio ODBC Driver 64-bit”但是当我运行时:
driver = 'Dremio ODBC Driver 64-bit'
我收到以下错误(出于明显的原因,我将其更改为 uid:pwd ... )
sqlalchemy.exc.ArgumentError:无法从字符串“Dremio ODBC Driver 64-bit+pyodbc://uid:pwd@localhost:31010/”解析 rfc1738 URL
我相信它来自空间。我尝试通过将标题更改为来将驱动程序名称更改为 Dremio,但这[Dremio ODBC Driver 64-bit]
给出了错误:odbcinst.ini
[Dremio]
sqlalchemy.exc.NoSuchModuleError:无法加载插件:sqlalchemy.dialects:Dremio
所以我认为我做得不对,也许还有其他需要改变的地方?
dremio - 索引为 0 的字段超出了 32000 字节的大小限制,dremio
我已经搜索并阅读了社区的文章,但我仍然无法解决这个问题。
这是我的工作简介,https://community.dremio.com/uploads/short-url/edtC2D5EKmhPJViVSEo4V5RbGAe.zip
不知道“Field with index 0”是什么意思,图中的哪个字段,数据源如下:
sql - 在 Dremio 上,如何在 Select 语句中添加空白/伪列?
我想知道如何使用 Dremio 在 select 语句中添加伪列?
在 MS SQL 上,我可以简单地使用下面的语句在我的结果中添加一个空白列。
我在 Dremio 上的表现如何?
sql - 在 Dremio 上声明一个默认值
作为主体,我想知道如何设置默认值 例如,在 MS SQL 上,我可以输入以下语句
声明@date date = getdate()
我正在尝试在 Dremio 上做同样的事情。