Тестирование распределенных систем (DUMP 2017)

Тестирование распределенных систем Андрей Сатарин

A distributed system is one in which the failure of
a computer you didn't even know existed can render your own computer unusable Leslie Lamport 3

Распределенные системы в мире • MongoDB • Apache Cassandra •
Apache Hadoop/MapReduce • Apache ZooKeeper • Apache Kafka • ElasticSearch 4

Распределенные системы в Яндексе • YT — платформа вычислений в
парадигме Map/Reduce [YT] • Yandex Query Language — декларативный язык запросов к системе обработки данных [YQL] • Media Storage —распределенная система хранения данных [MDS] • ClickHouse — открытая колоночная распределенная база данных [CH] [CH2] Подробная информация на встрече «Яндекс изнутри» 5

Зачем нужны распределенные системы? • Производительность — много машин могут
сделать больше работы в единицу времени, чем одна • Отказоустойчивость — сбой одной или нескольких машин не обязательно приводит к остановке системы 6

Производительность Sort benchmark [SRT]   Мировой рекорд 2016 года •
512 машин • Сортировка 100 TB данных за 134 секунды 7

Больше не буду говорить про производительность 8

Отказоустойчивость • Вероятность сбоя одного узла низкая (железо надежно) •
Больше узлов — больше сбоев каждый день Пример: сбой одной машины раз в год, в кластере 500 машин — больше одного сбоя в день 9

Отказоустойчивость: сеть The Network is Reliable [NR] «They found an
average failure rate of 5.2 devices per day and 40.8 links per day, with a median time to repair of approximately five minutes (and a maximum of one week)» «Median incident duration of 2 hours and 45 minutes for the highest- priority tickets and a median duration of 4 hours and 18 minutes for all tickets» 10

Отказоустойчивость: диски One Billion Drive Hours and Counting: Q1 2016
Hard Drive Stats [HDD]  «The overall Annual Failure Rate of 1.84% is the lowest quarterly number we’ve ever seen.» Loud Sound Just Shut Down a Bank’s Data Center for 10 Hours [SND]  «The HDD cases started to vibrate, and the vibration was transmitted to the read/write heads, causing them to go off the data tracks.» 11

Отказоустойчивость: силы природы Google data center loses data following four
lightning strikes [LHT]    «However, four successive lightning strikes on the electrical systems of its data center pushed the buffering and backups to their limits.» 12

https://twitter.com/mathiasverraes/status/632260618599403520 13

Распределенная персистентная очередь 14

Зачем нужна очередь? Очередь M … 1 Системы источники данных
Системы потребители данных N … 1 Очередь — M + N интеграций Нет очереди — M x N интеграций M + N << M x N 15

Очередь 6 5 4 3 7 2 First In First
Out (FIFO) 16

Персистентная очередь 6 5 4 3 7 2 1 Алиса
Боб 17

Распределенная персистентная очередь 6 5 4 3 7 2 e
d c b f c Топик Партиция 0 Партиция 1 Топик + партиция == FIFO 2 1 a 18

Распределенная персистентная очередь: запись 6 5 Партиция Диск: 19 Producer
7 Прокси

Распределенная персистентная очередь: запись 7 6 5 Прокси Партиция Диск:
20 Producer OK

Распределенная персистентная очередь: запись 6 5 Прокси Партиция Диск: 21
Producer 7

Producer Fail

Producer 7 Fail

Распределенная персистентная очередь: запись ? ? 6 5 Прокси Партиция
Диск: 24 Producer Fail OK

Семантика распределенных очередей • At most once —можем терять данные,
нет дублей (/dev/null) • Exactly once — нет потерь, нет дублей (наша очередь) • At least once — не теряем данные, возможны дубли (Apache Kafka) 25 7 7 7

https://twitter.com/mojavelinux/status/751595888435294209 26

Подходы к тестированию (что уже сделано до нас) 27

Netflix Chaos Monkey • Давно развивается компанией Netflix • Работает
на Amazon Web Services • Запускается в продуктивном окружении • Про нее многие знают [CM] [CM2] 28

Jepsen http://jepsen.io/ Kingsbury, 2015 29

Jepsen 30 Kingsbury, 2015

Наш подход к тестированию 31

Наш подход 6 5 4 3 7 2 Producer Consumer
Nemesis Safety Warden 32

Producer • Пишет заранее известный поток данных • Соблюдает протокол
взаимодействия с системой • Соблюдает single writer principle 33

Consumer • Читает данные и проверяет их корректность • Соблюдает
протокол взаимодействия с системой • Несколько потребителей на одну пару топик + партиция 34

Nemesis • Немезида — в древнегреческой мифологии богиня возмездия против
тех, кто высокомерен перед богами • У нас — инструмент для внесения разнообразных сбоев в систему (fault injection) • Сбои могут быть внешние (black box) и внутренние (white box) 35

Safety Warden Проверяет, что ничего плохого не произошло: • Очередь
соблюдает внешние инварианты и exactly once семантику • Процесс не падает в корку • Нет out-of-memory ошибок • Нет критичных сообщений в логах 36

Баги и выводы 37

Потеря дублей 6 5 7 Прокси Партиция Диск: Память: 38
Producer

Producer OK

Producer

Потеря дублей 6 5 4 3 Прокси Партиция Диск: Память:
41 7 Producer Fail

Потеря дублей 6 5 4 3 Прокси Партиция Диск: Память:
42 7 Producer 7 Fail

Потеря дублей 6 5 4 3 Прокси Диск: Память: 43
7 Producer Fail 7 OK Партиция

Потеря дублей 6 5 4 3 Прокси Диск: Память: 44
Producer Fail OK Партиция (после перезапуска)

Потеря дублей: выводы • Мы научились находить дефекты консистентности •
Данные должны попасть на диск — только тогда запись прошла успешно • Потеря данных требует несколько скоординированных сбоев 45

История о потерянном логе Партиция Распределенное хранилище Лог транзакций 3
4 5 6 2 1 46

История о потерянном логе Партиция Лог транзакций 3 4 6
2 1 47 Распределенное хранилище

История о потерянном логе Партиция Статус — запускается Лог транзакций
3 4 6 2 1 48 Распределенное хранилище

История о потерянном логе: выводы • Есть класс дефектов, которые
проявляются как потеря доступности • Дефекты доступности невозможно обнаружить через нарушение инвариантов • Доступность системы — важная характеристика для реальных систем 49

Safety и Liveness Safety — ничего плохого не происходит  Liveness
— в конце концов произойдет что-то хорошее Все свойства системы можно описать как комбинацию safety + liveness свойств 50

Как находить liveness дефекты системы? • Какими liveness свойствами должна
обладать система? • Как на практике описать свойства liveness для нашей очереди? • Какими способами можно обнаружить нарушение этих свойств? 51

Наш подход + Liveness Warden 6 5 4 3 7
2 Producer Consumer Nemesis Safety Warden 52 Liveness Warden Liveness Warden

Liveness Warden • Сложно проверять safety и liveness одновременно •
Поэтому мы останавливаем Nemesis, на время проверки liveness • Проверяем идет ли прогресс записей/чтений (Producer/Consumer) • Если прогресса нет — liveness ошибка 53

О залипшем кеше П1 П2 П3 Кеш данных Node Producer
Consumer 54

О залипшем кеше П1 П2 П3 Кеш данных Node Producer
Consumer 55

О залипшем кеше: выводы • При определенных сбоях на ноде
залипал кеш и чтения всегда возвращали ошибку. Записи при этом успешно проходили • Оптимизации производительности это хорошо, если они не нарушают гарантий системы • Новый компонент — новые баги • Возможна частичная потеря доступности 56

57 Заключение

58 https://twitter.com/CompSciFact/status/791389830420762624

Выводы • Будь готов к сбоям — они неизбежно будут
происходить • Изучай теорию — это помогает на практике • Знай свои инварианты — они описывают систему • Помни про liveness и доступность — эти свойства делают систему полезной 59

Андрей Сатарин Ведущий инженер по автоматизации тестирования https://twitter.com/asatarin [email protected] Контакты:
60

Ссылки • Testing Distributed Systems  https://asatarin.github.io/testing-distributed-systems/ • Simple Testing Can
Prevent Most Critical Failures  https://www.usenix.org/conference/osdi14/technical-sessions/ presentation/yuan • Яндекс изнутри: инфраструктура хранения и обработки данных  https://events.yandex.ru/events/meetings/15-oct-2016/ • Презентации Kyle Kingsbury  http://jepsen.io/talks.html 61

Тестирование распределенных систем (DUMP 2017)

Тестирование распределенных систем (DUMP 2017)

More Decks by Andrey Satarin

Other Decks in Technology

Featured

Transcript