3

我正在尝试通过 Pentaho 数据集成访问 BigQuery,但没有成功。

  • 系统:OSX El Capitan
  • Google BigQuery 身份验证方法:使用 .p12 密钥的服务帐户

我已按照本教程进行操作,并且正在使用 OSX http://wiki.pentaho.com/display/EAI/Google+BigQuery

这就是我所做的:

  1. 我将“kettle.zip 的依赖项”下载并提取到PDI_FOLDER/libswt/osx64
  2. 我下载并复制“bqjdbc-1.4-standalone.jar”到PDI_FOLDER/lib
  3. 之后,我尝试在数据集成中创建一个新连接,使用New>Database Connection>Generic Database>Native (JDBC)

我按照本教程https://code.google.com/p/starschema-bigquery-jdbc/wiki/JDBCURL配置了使用此参数的连接。所以参数是:

  • 自定义连接 URL:jdbc:BQDriver:projectid(secretproject)?withServiceAccount=true
  • 自定义驱动程序类名称:net.starschema.clouddb.jdbc.BQDrive
  • 用户名:pentaho-data-integration@secretproject.iam.gserviceaccount.com
  • 密码:/Users/luisfsns/Dropbox/Lendico/etl/marketing/lendico-pentaho-data-integration-googlebigquery.p12

我不知道的事情:

  • 我的自定义连接 URL 名称是否正确?我应该提供什么作为投影参数?项目的名称或路径的 URL?有人可以给我一个例子吗?
  • 我应该使用任何其他身份验证方法(尽管是“服务帐户”)或任何其他类型的私钥,如 .json?
  • 我的自定义驱动程序类名称是否正确?

有人可以帮助我吗?

这是我尝试测试创建的连接时的日志:

连接数据库时出错 [Teste]:org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错

找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive

org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错

找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive

invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at apple.launcher.LaunchRunner.run(LaunchRunner .java:116) at apple.launcher.LaunchRunner.callMain(LaunchRunner.java:51) at apple.launcher.JavaApplicationLauncher.launch(JavaApplicationLauncher.java:52) 原因:org.pentaho.di.core.exception.KettleDatabaseException:找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 597) at apple.launcher.LaunchRunner.run(LaunchRunner.java:116) at apple.launcher.LaunchRunner.callMain(LaunchRunner.java:51) at apple.launcher.JavaApplicationLauncher.launch(JavaApplicationLauncher.java:52) 原因: org.pentaho.di.core.exception.KettleDatabaseException:找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 597) at apple.launcher.LaunchRunner.run(LaunchRunner.java:116) at apple.launcher.LaunchRunner.callMain(LaunchRunner.java:51) at apple.launcher.JavaApplicationLauncher.launch(JavaApplicationLauncher.java:52) 原因: org.pentaho.di.core.exception.KettleDatabaseException:找不到驱动程序类“net.starschema.clouddb.jdbc.BQDrive”,请确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive 确保安装了“通用数据库”驱动程序(jar 文件)。net.starschema.clouddb.jdbc.BQDrive

在 org.pentaho.di.core.database.Database.connectUsingClass(Database.java:522) 在 org.pentaho.di.core.database.Database.connectUsingClass(Database.java:4697) 在 org.pentaho.di.core .database.Database.normalConnect(Database.java:414) ... 70 更多原因:java.lang.ClassNotFoundException: net.starschema.clouddb.jdbc.BQDrive at java.net.URLClassLoader$1.run(URLClassLoader.java: 202) 在 java.security.AccessController.doPrivileged(Native Method) 在 java.net.URLClassLoader.findClass(URLClassLoader.java:190) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:306) 在 java.lang.ClassLoader .loadClass(ClassLoader.java:247) at org.pentaho.di.core.database.Database.connectUsingClass(Database.java:497) ... 72 更多

自定义 URL:
jdbc:BQDriver:projectid(secretproject)?withServiceAccount=true 自定义驱动类:net.starschema.clouddb.jdbc.BQDrive

4

2 回答 2

5

这个问题的答案可能不会让你满意,但我们开始吧。可以创建此连接,但提取存在错误并且行流非常缓慢(Bigquery 可以快速处理任何内容,但此 JDBC 使获取数据非常慢。

我在这里所做的是一个 Python 2.7 脚本,用于将查询提取到表中,并将表提取到 Google Cloud Storage 上的 csv 文件中,然后下载该文件。

它真的很快,你不会有很多错误。

这是您可以使用的python代码。(您需要安装 google storage utils 才能轻松地将文件从云复制到您的机器)

SH 代码:( 在您的 JOB 的 shell 脚本条目中使用)

#!/bin/bash
export PATH=${PATH}

# BOTO is the login manager for GsUtil
export BOTO_DISPLAYENV="/home/mromano/.boto"
export BOTO_CONFIG="/home/mromano/.boto"

rm /tmp/bigquery_extraction_*

#Run Big Query extraction script on python
python "$caminho/google_bigquery_extract_foo_bar.py"

#Give it some seconds to sync data to Google Cloud Storage
sleep 10

#Copy from Google Cloud Storage to local file
/usr/local/bin/gsutil -q cp gs://pentaho_exports/google_bigquery_extract_foo_bar.csv.gz /tmp/google_bigquery_extract_foo_bar.csv.gz

python脚本:(创建带有查询结果的表,将表导出为CSV并删除表)

import httplib2
import logging
logging.basicConfig()

from apiclient.discovery import build
from oauth2client.client import SignedJwtAssertionCredentials
from bigquery import get_client

# BigQuery project id as listed in the Google Developers Console.
project_id = 'ce______?_____8'

# Service account email address as listed in the Google Developers Console.
service_account = '5399951_____?_______73k@developer.gserviceaccount.com'

f = file('../../../../keys/bigquery_key.p12', 'rb')
key = f.read()
f.close()

credentials = SignedJwtAssertionCredentials(
    service_account,
    key,
    scope='https://www.googleapis.com/auth/bigquery')

http = httplib2.Http()
http = credentials.authorize(http)


client = get_client(project_id, credentials=credentials, service_account=service_account)

# Write to table
job = client.write_to_table("""SELECT * FROM 001234.TEST""",
                    'pentaho_export',
                  table='table_foo_bar',
                create_disposition='CREATE_IF_NEEDED',
                write_disposition='WRITE_TRUNCATE')
try:
    job_resource = client.wait_for_job(job, timeout=6000)
    #print job_resource
except BigQueryTimeoutException:
    print "Timeout"

# Exporting
job_export = client.export_data_to_uris( ['gs://pentaho_exports/foo_bar.csv.gz'],
                                   'pentaho_export',
                                   'table_foo_bar',
                   compression='GZIP',
                   field_delimiter='    ')
try:
    job_resource = client.wait_for_job(job_export, timeout=6000)
    #print job_resource
except BigQueryTimeoutException:
    print "Timeout"

# Delete an existing table.
deleted = client.delete_table('pentaho_export', 'table_foo_bar')

我希望它有所帮助。=)

于 2016-01-18T11:06:40.197 回答
3

确保您已完成以下操作。

  • 你说,

    2)我下载并复制“bqjdbc-1.4-standalone.jar”到PDI_FOLDER/lib

    它也应该被复制到data-integration\libext\JDBC。如果没有这样的文件夹,您需要创建它并复制.jar文件。

  • 那么自定义连接 URL 应该是这样的:

    jdbc:BQDriver:themetic-scope-114043?withServiceAccount=truethemetic-scope-114043你的项目ID在哪里。(使用正确的身份证)

  • 自定义驱动程序类名称错误(末尾缺少字母)

    net.starschema.clouddb.jdbc.BQDriver

  • 密码应正确指向 .p12 文件。在我的 Windows 机器中,我使用 C:\Digin-f537871c3b66.p12 作为密码,物理文件应该在上述路径中。

于 2016-03-01T10:19:30.487 回答