Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Опыт использования Nessie в Азбуке Вкуса

Опыт использования Nessie в Азбуке Вкуса

Avatar for Elena Meremyanina

Elena Meremyanina

May 15, 2025
Tweet

More Decks by Elena Meremyanina

Other Decks in Technology

Transcript

  1. План доклада • О Азбуке Вкуса • Как выбирали каталог

    • Чем хорош Nessie • Кейсы Азбуки Вкуса • Работа связки Trino + Nessie • О проблемах • Планы на будущее 2
  2. О Азбуке Вкуса 3 сеть 171 магазин 3 региона 5

    форматов хранилище объем данных: 8 тб кол-во таблиц: 420 шт compute 24vCPU 256Gb RAM 512GB SSD люди 3 дата-инженера ~30 аналитиков
  3. Требования к каталогу • Реализация Iceberg REST API • Легко

    развернуть • Open Source • Поддержка View • Оптимальный для начала 6
  4. Каталог от Tabular • REST API обертка над JDBС-каталогом •

    Хорошо показал себя во время пилота • Минимум настроек 7
  5. Мотивация смены каталога Сложность чистки и оптимизации данных 1 2

    3 Необходимость тестового стенда Копирование данных для проверок гипотез 4 5 Отсутствие контроля доступа к хранилищу S3 Упрощение разработки 6 9 Прекращение поддержки каталога Tabular
  6. Новые требования • Реализация Iceberg REST API • Легко развернуть

    • Open Source • Поддержка View • Поддержка Zero-Copy Cloning • Аутентификация и авторизация • Упрощение обслуживания 10
  7. Что такое Project Nessie? • Мульти-табличные транзакции • Работа с

    данными, как с кодом в git (branch, merge, tagging, rollback) • Zero-Copy Cloning • Поддержка Iceberg REST API и View • Автоматическая очистка данных • Официальный Docker и Kubernetes Helm Chart • Контроль доступа через OpenID • Open Source 12
  8. Коммиты, ветки, тэги • Коммит – консистентный слепок всех таблиц

    на определенный момент времени • Тэг – именованная ссылка на определенный коммит • Ветка – именованная ссылка к которой можно добавлять коммиты • Слияние – Комбинирование двух коммитов 13
  9. Другие утилиты Nessie Server Admin Tool • Создание/восстановление бакапов •

    Очистка базы 17 Nessie CLI • Создание/удаление веток/тэгов • Слияние веток • Откат изменений • Просмотр содержания каталога
  10. Кейс 1. Песочницы Дата-инженер/data scientist использует слепок хранилища для разработки

    новой фичи/исследований • Экономия времени на настройку среды • Экономия объема бакета 20
  11. Кейс 2. Тестовый стенд Перед релизом функционала можно проводить полноценное

    end-to-end тестирование • Уменьшение кол-ва ошибок на проде • Интеграция с CI/CD • Подключение BI-инструментов 22
  12. Кейс 3. Консистентные данные 25 Пользователи всегда работают с качественными

    консистентными данными • Повышение качества отчетности • Доверие пользователей
  13. Apache Polaris ü Контроль доступа RBAC ü Федеративный каталог ü

    Полноценное обслуживание таблиц ü Вэб-интерфейс ü И многое другое… 35
  14. 37