Article title:
УНИВЕРСАЛЬНЫЙ МОДУЛЬ ПАКЕТНОЙ ОБРАБОТКИ СООБЩЕНИЙ APACHE KAFKA ПРИ ЗАГРУЗКЕ ДАННЫХ В CLICKHOUSE
Authors:
Пономарев М. Д., Красникова С. А.
Keywords: Apache Kafka, ClickHouse, ETL, пакетная обработка, идемпотентность, дедупликация, распределенные системы.
الصفحات: 93-99
Abstract: В статье рассматривается задача повышения устойчивости ETL-конвейера, передающего потоковые данные из Apache Kafka в аналитическое хранилище ClickHouse. Исходная проблема связана с тем, что потребители сообщений выполняли частые мелкие вставки, не соответствующие модели хранения MergeTree и приводившие к накоплению частей таблиц. Предложен универсальный модуль-обертка над новой версией клиентской библиотеки Kafka, который скрывает сложность низкоуровневого API и вводит управляемую пакетную обработку, повторные попытки с экспоненциальной задержкой и добавлением случайной компоненты, корректное завершение работы и идемпотентную запись в ClickHouse. Практическая проверка показала, что внедрение модуля позволило снизить частоту INSERT-запросов в несколько раз, устранить проявления ошибки too many parts и сохранить контролируемую семантику обработки сообщений при сбоях.
Full text is not available
Download full text