Перейти к основному содержимому
Перейти к основному содержимому

DataLakeCatalog

Движок базы данных DataLakeCatalog позволяет вам подключать ClickHouse к внешним каталогам данных и выполнять запросы к данным в открытом табличном формате без необходимости дублирования данных. Это преобразует ClickHouse в мощный движок запросов, который бесшовно работает с вашей существующей инфраструктурой ДатаЛэйк.

Поддерживаемые каталоги

Движок DataLakeCatalog поддерживает следующие каталоги данных:

  • AWS Glue Catalog - Для таблиц Iceberg в средах AWS
  • Databricks Unity Catalog - Для таблиц Delta Lake и Iceberg
  • Hive Metastore - Традиционный каталог экосистемы Hadoop
  • REST Catalogs - Любой каталог, поддерживающий спецификацию Iceberg REST

Создание базы данных

Вам необходимо включить соответствующие настройки ниже, чтобы использовать движок DataLakeCatalog:

SET allow_experimental_database_iceberg = 1;
SET allow_experimental_database_unity_catalog = 1;
SET allow_experimental_database_glue_catalog = 1;
SET allow_experimental_database_hms_catalog = 1;

Базы данных с движком DataLakeCatalog могут быть созданы с использованием следующего синтаксиса:

CREATE DATABASE database_name
ENGINE = DataLakeCatalog(catalog_endpoint[, user, password])
SETTINGS
catalog_type,
[...]

Поддерживаются следующие настройки:

НастройкаОписание
catalog_typeТип каталога: glue, unity (Delta), rest (Iceberg), hive
warehouseИмя склада/базы данных, используемое в каталоге.
catalog_credentialУчетные данные для аутентификации в каталоге (например, API ключ или токен)
auth_headerИменованный HTTP-заголовок для аутентификации с сервисом каталога
auth_scopeОбласть OAuth2 для аутентификации (если используется OAuth)
storage_endpointURL-адрес конечной точки для подлежащего хранилища
oauth_server_uriURI сервера авторизации OAuth2 для аутентификации
vended_credentialsBoolean, указывающий на необходимость использования предоставленных учетных данных (специфично для AWS)
aws_access_key_idAWS access key ID для доступа к S3/Glue (если не используются предоставленные учетные данные)
aws_secret_access_keyAWS secret access key для доступа к S3/Glue (если не используются предоставленные учетные данные)
regionРегион AWS для сервиса (например, us-east-1)

Примеры

Смотрите страницы ниже для примеров использования движка DataLakeCatalog: