Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Lakehouse в Лемана Тех. От архитектуры до оптим...

Lakehouse в Лемана Тех. От архитектуры до оптимизации

Avatar for Elena Meremyanina

Elena Meremyanina

May 15, 2025
Tweet

More Decks by Elena Meremyanina

Other Decks in Technology

Transcript

  1. 3 Петр Гуринов ▪ Руководитель практики инженерии данных в Лемана

    Тех ▪ Работаю с хранилищами данных более 5 лет ▪ Выпускник Мехмат МГУ и Бизнес-Информатики НИУ ВШЭ [email protected] t.me/vonirug
  2. Масштабы бизнеса Сотрудников 40 000 + Дарксторов 11 РЦ 6

    Магазинов 112 object storage > 1,5 PB DWH > 600 TB > 1 200 (~2 TB) ETL Jobs / День 4
  3. 8

  4. 9

  5. 10

  6. 11

  7. Greenplum MPP Shared Nothing СУБД на основе PostgreSQL, подходит для

    хранения и обработки больших объемов данных 12
  8. 13

  9. 14

  10. Greenplum у нас CPU 1 760 RAM 16.5 TB Primary

    Segments Server Segments 22 SSD 924 TB 396 15 ▪ Развиваем 6 лет ▪ Единое хранилище данных ▪ > 300 интеграций ▪ ~ 1 300 витрин с ~ 500 000 строками бизнес логики ▪ Ad-hoc для всех сотрудников компании
  11. 16

  12. 18

  13. Кто был первым? 22 ▪ Clickstream - события с сайта

    и мобильного приложения ▪ Занимали более 100 Тб только в GP ▪ 3 интеграции ▪ 9 актуальных витрин ▪ 2 домена, 5 продуктовых команды
  14. 24

  15. Требования к новой системе 25 ▪ Вписывается в текущий ландшафт

    платформы данных ▪ Cloud Ready / Cloud Agnostic ▪ Open source ▪ Разделение слоев хранения и обработки
  16. Требования к новой системе 26 ▪ Вписывается в текущий ландшафт

    платформы данных ▪ Cloud Ready / Cloud Agnostic ▪ Open source ▪ Разделение слоев хранения и обработки ▪ Низкий порог входа для пользователей платформы данных
  17. SQL над S3 Impala Dremio Trino Лицензирование ✓ ✗ ✓

    Активность сообщества ? ✓ ✓ ANSI SQL ✗ ? ✓* Гетерогенность источников ✗ ✓ ✓ Поддержка табличных форматов ? ? ? Кеширование ✗ ✓ ✗ * https://trino.io/docs/current/overview/concepts.html#statement 27
  18. Табличные форматы 28 Iceberg Hudi Delta Lake Лицензирование ✓ ✓

    ? Активность сообщества ✓ ? ✓ Trino - read / write ✓/✓ ✓/✗ ✓/? Schema Evolution ✓ ? ✓ Point-in-Time ✓ ✓ ✓
  19. Data Lakehouse – DLH 29 Компоненты независимы Trino - вычисления

    HMS - хранение метаданных Iceberg - табличный формат S3 - хранение данных
  20. Проблемы и Ограничения DLH ▪ Старые источники из DWH не

    имеют данных на S3 ▪ Trino не имеет оптимизированного коннектора к GP ▪ GP не читает Iceberg 31
  21. Проблемы и Ограничения DLH ▪ Старые источники из DWH не

    имеют данных на S3 ▪ Trino не имеет оптимизированного коннектора к GP ▪ GP не читает Iceberg ▪ Отсутствие временных таблиц в Trino ▪ Отсутствие мультитранзакций в Iceberg ▪ Научиться управлять типами данных 32
  22. Проблемы и Ограничения DLH ▪ Старые источники из DWH не

    имеют данных на S3 ▪ Trino не имеет оптимизированного коннектора к GP ▪ GP не читает Iceberg ▪ Отсутствие временных таблиц в Trino ▪ Отсутствие мультитранзакций в Iceberg ▪ Научиться управлять типами данных ▪ Научиться жить без SPILL-ов 33
  23. 34

  24. 35

  25. 36

  26. 37

  27. Что мы получили 38 ▪ Эволюционно развиваем технологии ▪ Вся

    инфраструктура в k8s ▪ Разные вычислительные движки могут использовать одни и те же данные ▪ Скалируем независимо Storage и Compute
  28. 40 Сергей Куприков ▪ Техлид продукта DLH ▪ Фанат DataOps

    подходов ▪ Платформенный инженер данных [email protected] t.me/kuprikovsergey
  29. Управление инфраструктурой ▪ Состояние хранится в репозитории ▪ Удобное управление

    версиями ▪ Возможность отката изменений ▪ Секреты приложения подтягиваются из Vault 50
  30. 71

  31. Выводы ▪ Расчеты в DLH выполняются стабильно ▪ Cократили лаг

    расчета витрин ▪ Экономим только на хранении данных более чем в 10х 73
  32. Выводы ▪ Расчеты в DLH выполняются стабильно ▪ Cократили лаг

    расчета витрин ▪ Экономим только на хранении данных более чем в 10х ▪ Счастливые аналитики в продуктовых командах 74
  33. Куда дальше ▪ Замена Hive Metastore ▪ Продуктивизация SCD2 таблиц

    ▪ Обслуживание(maintenance) Iceberg таблиц ▪ Автоскейлинг кластеров Trino ▪ Копирование Iceberg таблиц в greenplum ▪ Резервирование Iceberg у разных s3 провайдеров 75