Название статьи:
СРАВНИТЕЛЬНЫЙ АНАЛИЗ ТЕХНОЛОГИЙ ОБРАБОТКИ БОЛЬШИХ CSV-ОТЧЁТОВ WILDBERRIES
Авторы:
Романовский И. О., Антипова О. В., Серпинский Р. Э.
Ключевые слова: Wildberries, CSV-отчёты, pandas, polars, ClickHouse, аналитическая обработка данных, benchmark, производительность, использование памяти, агрегация данных, marketplace analytics.
Страницы: 185-189
Аннотация: В данной работе проводится экспериментальное исследование технологий
обработки больших CSV-отчётов маркетплейса Wildberries в задачах аналитической
обработки данных. Рассматриваются три подхода: использование библиотеки pandas,
библиотеки polars и локального аналитического движка ClickHouse. Актуальность
исследования обусловлена тем, что отчёты маркетплейса могут содержать сотни тысяч и
миллионы строк, а их обработка напрямую влияет на скорость построения аналитических
витрин, расчёт рекламных и финансовых показателей, а также нагрузку на backend-сервис.
Экспериментальная часть включает генерацию тестовых CSV-наборов объёмом 10, 50 и 100
МБ, выполнение единого аналитического сценария и сравнение технологий по времени
обработки и пиковому потреблению оперативной памяти. На основе полученных
результатов сформулированы выводы о применимости каждой технологии для задач
аналитики Wildberries.
Полный текст статьи недоступен
Скачать полный текст статьи