Перейти к основному содержимому
Перейти к основному содержимому

Работа с данными Avro, Arrow и ORC в ClickHouse

Apache выпустил множество форматов данных, активно используемых в аналитических средах, включая популярные Avro, Arrow и Orc. ClickHouse поддерживает импорт и экспорт данных, используя любой из этих форматов.

Импорт и экспорт в формате Avro

ClickHouse поддерживает чтение и запись файлов данных Apache Avro, которые широко используются в системах Hadoop.

Чтобы импортировать из файла avro, мы должны использовать формат Avro в операторе INSERT:

INSERT INTO sometable
FROM INFILE 'data.avro'
FORMAT Avro

С помощью функции file() мы также можем исследовать файлы Avro перед фактическим импортом данных:

SELECT path, hits
FROM file('data.avro', Avro)
ORDER BY hits DESC
LIMIT 5;
┌─path────────────┬──hits─┐
│ Amy_Poehler     │ 62732 │
│ Adam_Goldberg   │ 42338 │
│ Aaron_Spelling  │ 25128 │
│ Absence_seizure │ 18152 │
│ Ammon_Bundy     │ 11890 │
└─────────────────┴───────┘

Чтобы экспортировать в файл Avro:

SELECT * FROM sometable
INTO OUTFILE 'export.avro'
FORMAT Avro;

Типы данных Avro и ClickHouse

Учитывайте соответствие типов данных при импорте или экспорте файлов Avro. Используйте явное приведение типов для конвертации при загрузке данных из файлов Avro:

SELECT
    date,
    toDate(date)
FROM file('data.avro', Avro)
LIMIT 3;
┌──date─┬─toDate(date)─┐
│ 16556 │   2015-05-01 │
│ 16556 │   2015-05-01 │
│ 16556 │   2015-05-01 │
└───────┴──────────────┘

Сообщения Avro в Kafka

Когда сообщения Kafka используют формат Avro, ClickHouse может читать такие потоки, используя формат AvroConfluent и движок Kafka:

CREATE TABLE some_topic_stream
(
    field1 UInt32,
    field2 String
)
ENGINE = Kafka() SETTINGS
kafka_broker_list = 'localhost',
kafka_topic_list = 'some_topic',
kafka_group_name = 'some_group',
kafka_format = 'AvroConfluent';

Работа с форматом Arrow

Другой столбцовый формат — Apache Arrow, также поддерживаемый ClickHouse для импорта и экспорта. Чтобы импортировать данные из файла Arrow, мы используем формат Arrow:

INSERT INTO sometable
FROM INFILE 'data.arrow'
FORMAT Arrow

Экспорт в файл Arrow работает аналогично:

SELECT * FROM sometable
INTO OUTFILE 'export.arrow'
FORMAT Arrow

Также проверьте соответствие типов данных, чтобы узнать, нужно ли что-то конвертировать вручную.

Потоковая передача данных Arrow

Формат ArrowStream можно использовать для работы с потоками Arrow (используется для обработки в памяти). ClickHouse может читать и записывать потоки Arrow.

Чтобы продемонстрировать, как ClickHouse может передавать данные Arrow, давайте передадим их в следующий python-скрипт (он считывает входной поток в формате потоковой передачи Arrow и выводит результат в виде таблицы Pandas):

import sys, pyarrow as pa

with pa.ipc.open_stream(sys.stdin.buffer) as reader:
  print(reader.read_pandas())

Теперь мы можем передавать данные из ClickHouse, перенаправив его вывод в скрипт:

clickhouse-client -q "SELECT path, hits FROM some_data LIMIT 3 FORMAT ArrowStream" | python3 arrow.py
                           path  hits
0       b'Akiba_Hebrew_Academy'   241
1           b'Aegithina_tiphia'    34
2  b'1971-72_Utah_Stars_season'     1

ClickHouse также может читать потоки Arrow, используя тот же формат ArrowStream:

arrow-stream | clickhouse-client -q "INSERT INTO sometable FORMAT ArrowStream"

Мы использовали arrow-stream как возможный источник данных для потоковой передачи Arrow.

Импорт и экспорт данных ORC

Формат Apache ORC — это формат столбцового хранилища, который обычно используется для Hadoop. ClickHouse поддерживает импорт и экспорт Orc данных, используя формат ORC:

SELECT *
FROM sometable
INTO OUTFILE 'data.orc'
FORMAT ORC;

INSERT INTO sometable
FROM INFILE 'data.orc'
FORMAT ORC;

Также проверьте соответствие типов данных, а также дополнительные настройки для настройки экспорта и импорта.

Дальнейшее чтение

ClickHouse вводит поддержку многих форматов, как текстовых, так и бинарных, чтобы охватывать различные сценарии и платформы. Изучите больше форматов и способы работы с ними в следующих статьях:

Также проверьте clickhouse-local - портативный полнофункциональный инструмент для работы с локальными/удаленными файлами без необходимости в сервере ClickHouse.