问题标签 [presto-jdbc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
presto - Presto 本地文件连接器测试
我在本地机器上部署了 presto,服务器已启动并正在运行。我正在尝试使用本地文件连接器访问名为“poc.csv”的本地 csv 文件。我在 etc/catalog 文件夹下创建了一个名为 localfile.properties 的文件。因此,目录是本地文件,架构是日志(根据文档https://prestodb.io/docs/current/connector/localfile.html)
我还可以使用命令 show catalogs 查看通过 presto cli 创建的目录;所以我相信目录已经成功创建,没有任何问题。
现在,我的问题是本地文件连接器如何知道要在我的本地机器中读取哪个文件(在我的情况下是 poc.csv)以及如何通过 presto cli 查询/访问 poc.csv 的内容。为简单起见,假设我们在 poc.csv 中有 name 和 employeeId。
通过 presto cli 显示目录
本地文件.properties
apache-kafka - 如何将 prestoDB 中的数据插入 Kafka 主题?
我可以从 presto 的 kafka 主题中获取数据,如下属性:
/etc/kafka/mytable.json
它在获取数据时起作用。select * from kafka.mykafka."mytable"
但是当我想插入数据时,它给出了这个错误:
我该如何处理?
提前致谢
sql - JDBC实际在什么阶段执行查询
一般来说,我对数据库的了解非常有限。我对 JDBC(Presto) 的工作原理感到困惑 - 所以在我的程序中,我有类似的东西
该execute
部分需要几秒钟,但rs.next()
需要很长时间,并且通常会超时,甚至无法返回 1 条记录。我曾经认为execute
执行查询并获取结果,但现在在我看来实际结果不会被计算,直到rs.next()
有人对 JDBC 的工作原理有很好的了解吗?有没有办法优化rs.next()
,所以它至少会在合理的时间范围内返回一些东西?
apache-spark - Spark Trino 连接
目前我正在使用带有 Trino 363 的 Spark 3.2.0。我正在尝试连接到 Trino,但出现错误。错误信息如下。
线程“主”java.sql.SQLException 中的异常:无法识别的连接属性“url”
请在下面找到我正在使用的代码。
请任何人都可以帮助我指出这里有什么问题。提前致谢。
sql - SQL - 保证至少 n 个唯一用户,每个用户在查询中出现 2 次
我正在使用 AWS Personalize,其中一项服务配额是“至少 1000 条记录,其中至少包含 25 个唯一用户,每个用户至少有 2 条记录”,我知道我的原始数据有这些数字,但我正在尝试找到一种方法来保证这些数字将始终得到满足,即使查询是由其他人在未来运行的。
最简单的方法是使用完整的数据集,但现在我们正在努力实现 POC,所以这并不是我的第一选择。我只计算出现次数就涵盖了“每个记录两个”部分,但我不知道如何保证最少 25 个用户。
重要的是要说我的数据在保存时不会以任何方式打乱。
我的查询
因为我在 AWS Athena 中,所以我使用 LIMIT 来查询一个子集。
java - Presto 或 Trino 自定义 UDF 得到“不匹配预期的 Java 类型错误”
我创建了一个已注册的自定义 udf,但是当我尝试运行select do_protect('abc@test.com','Test_EMAIL');
时出现以下错误:
io.trino.spi.TrinoException:do_protect 的确切实现与预期的 java 类型不匹配
这是我的 Trino udf。我想传递两个字符串(VARCHAR)参数。
apache-spark - 如何在spark中添加presto的会话属性
有什么方法可以在 spark 中设置 presto 的会话参数,同时从中构建 Dataframe。
我设置 task.max-worker-threads 这个属性的方式是有任何选项来设置会话属性,例如 required_workers_count 或 query_max_run_time 等。
我也尝试了以下选项,但每次都显示无法识别的连接属性'sessionProperties'。
在添加属性时
在火花中加载时
java - org.apache.hadoop.security.AccessControlException:未启用简单身份验证。可用:[令牌,KERBEROS]
我正在尝试使用 Kerberos 身份验证在 presto 中执行配置单元表查询,但它失败了
引起:com.facebook.presto.spi.PrestoException: Error opening Hive split hdfs://ip-10-13-9-237.xxxx.com:8020/user/hive/warehouse/extended_test_db_hive2.db/table_with_all_data_types/000000_0_copy_2 (offset=0, length=124) using org.apache.hadoop.mapred.TextInputFormat: org.apache.hadoop.security.AccessControlException: SIMPLE 身份验证未启用。可用:[令牌,KERBEROS]
任何人请帮助
python - 如何在 python 中连接到 Presto JDBC?
我正在尝试使用 JDBC 在 python 中连接到 Presto 服务器,但找不到任何有关如何执行此操作的指导。有一些方法可以在 python 中连接到 Presto(例如,SQLAlchemy 中的标准方法)或在 Java 或 R 中连接到 Presto JDBC,但我找不到如何将这些用于 Presto + JDBC + Python 的组合。