Название статьи:
УНИВЕРСАЛЬНЫЙ МОДУЛЬ ПАКЕТНОЙ ОБРАБОТКИ СООБЩЕНИЙ APACHE KAFKA ПРИ ЗАГРУЗКЕ ДАННЫХ В CLICKHOUSE
Авторы:
Пономарев М. Д., Красникова С. А.
Ключевые слова: Apache Kafka, ClickHouse, ETL, пакетная обработка, идемпотентность, дедупликация, распределенные системы.
Страницы: 93-99
Аннотация: В статье рассматривается задача повышения устойчивости ETL-конвейера, передающего потоковые данные из Apache Kafka в аналитическое хранилище ClickHouse. Исходная проблема связана с тем, что потребители сообщений выполняли частые мелкие вставки, не соответствующие модели хранения MergeTree и приводившие к накоплению частей таблиц. Предложен универсальный модуль-обертка над новой версией клиентской библиотеки Kafka, который скрывает сложность низкоуровневого API и вводит управляемую пакетную обработку, повторные попытки с экспоненциальной задержкой и добавлением случайной компоненты, корректное завершение работы и идемпотентную запись в ClickHouse. Практическая проверка показала, что внедрение модуля позволило снизить частоту INSERT-запросов в несколько раз, устранить проявления ошибки too many parts и сохранить контролируемую семантику обработки сообщений при сбоях.
Полный текст статьи недоступен
Скачать полный текст статьи
Журнал индексируется в Российском индексе научного цитирования (РИНЦ)
Журнал "Оригинальные исследования (ОРИС)" (включен в РИНЦ) ведет прием статей в ближайший номер до 31 мая 2026 г.
Архив выпусков
- 2026 - Том 16, Выпуск 5
- 2026 - Том 16, Выпуск 4
- 2026 - Том 16, Выпуск 3
- 2026 - Том 16, Выпуск 2
- 2026 - Том 16, Выпуск 1
- 2025 - Том 15, Выпуск 12
- 2025 - Том 15, Выпуск 11
- 2025 - Том 15, Выпуск 10
- 2025 - Том 15, Выпуск 9
- 2025 - Том 15, Выпуск 8
-
Весь архив