Тестирование распределенных систем

Тестирование распределенных систем Андрей Сатарин

A distributed system is one in which the failure of
a computer you didn't even know existed can render your own computer unusable Leslie Lamport 3

Распределенные системы в мире • MongoDB • Apache Cassandra •
Apache Hadoop/MapReduce • Apache ZooKeeper • Apache Kafka • ElasticSearch 4

Распределенные системы в Яндексе • YT — платформа вычислений в
парадигме Map/Reduce  https://habrahabr.ru/company/yandex/blog/311104/ • Yandex Query Language — декларативный язык запросов к системе обработки данных  https://habrahabr.ru/company/yandex/blog/312430/ • Media Storage —распределенная система хранения данных  https://habrahabr.ru/company/yandex/blog/311806/ • ClickHouse — открытая колоночная распределенная база данных  https://clickhouse.yandex/  https://habrahabr.ru/company/yandex/blog/303282/ Подробнее тут https://events.yandex.ru/events/meetings/15-oct-2016/ 5

Зачем нужны распределенные системы? • Производительность — много машин могут
сделать больше работы в единицу времени, чем одна • Отказоустойчивость — сбой одной или нескольких машин не обязательно приводит к остановке системы 6

Производительность Sort benchmark (http://sortbenchmark.org/)   Мировой рекорд 2016 года: •
512 машин • Сортировка 100 TB данных за 134 секунды 7

Больше не буду говорить про производительность 8

Отказоустойчивость • Вероятность сбоя одного узла низкая (железо надежно) •
Больше узлов — больше сбоев каждый день Пример: сбой одной машины раз в год, в кластере 500 машин — больше одного сбоя в день 9

Отказоустойчивость: сеть The Network is Reliable  http://queue.acm.org/detail.cfm?id=2655736 «They found an
average failure rate of 5.2 devices per day and 40.8 links per day, with a median time to repair of approximately five minutes (and a maximum of one week)» «Median incident duration of 2 hours and 45 minutes for the highest- priority tickets and a median duration of 4 hours and 18 minutes for all tickets» 10

Отказоустойчивость: диски One Billion Drive Hours and Counting: Q1 2016
Hard Drive Stats  https://www.backblaze.com/blog/hard-drive-reliability-stats-q1-2016/  «The overall Annual Failure Rate of 1.84% is the lowest quarterly number we’ve ever seen.» Loud Sound Just Shut Down a Bank’s Data Center for 10 Hours  http://www.techworm.net/2016/09/banks-data-center-shut-10-hours-loud-sound.html  «The HDD cases started to vibrate, and the vibration was transmitted to the read/write heads, causing them to go off the data tracks.» 11

Отказоустойчивость: силы природы Google data center loses data following four
lightning strikes  http://www.extremetech.com/computing/212586-google-data-center-loses-data-following-four- lightning-strikes    «However, four successive lightning strikes on the electrical systems of its data center pushed the buffering and backups to their limits.» 12

https://twitter.com/mathiasverraes/status/632260618599403520 13

Распределенная персистентная очередь 14

Зачем нужна очередь? Очередь M … 1 Системы источники данных
Системы потребители данных 15 N … 1 Очередь — M + N интеграций Нет очереди — M x N интеграций M + N << M x N

Очередь 6 5 4 3 7 2 First In First
Out (FIFO) 16

Персистентная очередь 6 5 4 3 7 2 1 Алиса
Боб 17

Распределенная персистентная очередь 6 5 4 3 7 2 e
d c b f c Топик Партиция 0 Партиция 1 Топик + партиция == FIFO 2 1 a 18

Распределенная персистентная очередь: запись 6 5 Партиция Диск: 19 Producer
7 Прокси

Распределенная персистентная очередь: запись 7 6 5 Прокси Партиция Диск:
20 Producer OK

Распределенная персистентная очередь: запись 6 5 Прокси Партиция Диск: 21
Producer 7

Producer Fail

Producer 7 Fail

Распределенная персистентная очередь: запись ? ? 6 5 Прокси Партиция
Диск: 24 Producer Fail OK

Семантика распределенных очередей • At most once —можем терять данные,
нет дублей (/dev/null) • Exactly once — нет потерь, нет дублей (наша очередь) • At least once — не теряем данные, возможны дубли (Apache Kafka) 25

https://twitter.com/mojavelinux/status/751595888435294209 26

Подходы к тестированию (что уже сделано до нас) 27

Netflix Chaos Monkey • Давно развивается компанией Netflix • Работает
на Amazon Web Services • Запускается в продуктивном окружении • Про нее многие знают http://techblog.netflix.com/2011/07/netflix-simian-army.html  http://techblog.netflix.com/2016/10/netflix-chaos-monkey-upgraded.html 28

Jepsen http://jepsen.io/ Kingsbury, 2015 29

Jepsen 30 Kingsbury, 2015

Наш подход к тестированию 31

Наш подход 6 5 4 3 7 2 Producer Consumer
Nemesis Safety Warden 32

Producer • Пишет заранее известный поток данных • Соблюдает протокол
взаимодействия с системой • Соблюдает single writer principle 33

Consumer • Читает данные и проверяет их корректность • Соблюдает
протокол взаимодействия с системой • Несколько потребителей на одну пару топик + партиция 34

Nemesis • Немезида — в древнегреческой мифологии богиня возмездия против
тех, кто высокомерен перед богами • У нас — инструмент для внесения разнообразных сбоев в систему (fault injection) • Сбои могут быть внешние (black box) и внутренние (white box) 35

Safety Warden Проверяет, что ничего плохого не произошло: • Очередь
соблюдает внешние инварианты и exactly once семантику • Процесс не падает в корку • Нет out-of-memory ошибок • Нет критичных сообщений в логах 36

Баги и выводы 37

Потеря дублей 6 5 7 Прокси Партиция Диск: Память: 38
Producer

Producer OK

Producer

Потеря дублей 6 5 4 3 Прокси Партиция Диск: Память:
41 7 Producer Fail

Потеря дублей 6 5 4 3 Прокси Партиция Диск: Память:
42 7 Producer 7 Fail

Потеря дублей 6 5 4 3 Прокси Диск: Память: 43
7 Producer Fail 7 OK Партиция

Потеря дублей 6 5 4 3 Прокси Диск: Память: 44
Producer Fail OK Партиция (после перезапуска)

Потеря дублей: выводы • Мы научились находить дефекты консистентности •
Данные должны попасть на диск — только тогда запись прошла успешно • Потеря данных требует несколько скоординированных сбоев 45

Переупорядочивание данных 7 Прокси 8 46 Producer 6 5 Партиция
Диск:

Переупорядочивание данных Прокси 47 Producer 8 7 6 5 Партиция
Диск: OK OK

Диск:

Переупорядочивание данных Прокси 50 Producer 8 6 5 Партиция Диск:
7

Переупорядочивание данных Прокси 51 Producer 8 6 5 Партиция Диск:
OK OK

Переупорядочивание данных: выводы • Проблема в клиентском протоколе — он
недостаточно жесткий • «Хороший» клиент, никогда не получит эту багу • Мы поменяли протокол — добавили упорядоченный внутри сессии номер записи 52

История о потерянном логе Партиция Распределенное хранилище Лог транзакций 3
4 5 6 2 1 53

История о потерянном логе Партиция Лог транзакций 3 4 6
2 1 54 Распределенное хранилище

История о потерянном логе Партиция Статус — запускается Лог транзакций
3 4 6 2 1 55 Распределенное хранилище

История о потерянном логе: выводы • Есть класс дефектов, которые
проявляются как потеря доступности • Дефекты доступности невозможно обнаружить через нарушение инвариантов • Доступность системы — важная характеристика для реальных систем 56

Safety и Liveness Safety — ничего плохого не происходит  Liveness
— в конце концов произойдет что-то хорошее Все свойства системы можно описать как комбинацию safety + liveness свойств 57

Почему сложно проверять Liveness • Свойство liveness проявляется только на
бесконечной истории событий в системе (в конце концов произойдет что-то хорошее) • «Impossibility of Distributed Consensus with One Faulty Process» Fisher, Lynch, Paterson (1985) aka «FLP result»  http://the-paper-trail.org/blog/a-brief-tour-of-flp-impossibility/ • «FLP proves that any fault-tolerant algorithm solving consensus has runs that never terminate»  http://www.cs.cornell.edu/courses/CS5412/2016sp/slides/XII%20- %20Consensus%20and%20FLP.pdf 58

Как находить liveness дефекты системы? • Какими liveness свойствами должна
обладать система? • Как на практике описать свойства liveness для нашей очереди? • Какими способами можно обнаружить нарушение этих свойств? 59

Наш подход + Liveness Warden 6 5 4 3 7
2 Producer Consumer Nemesis Safety Warden 60 Liveness Warden Liveness Warden

Liveness Warden • Сложно проверять safety и liveness одновременно •
Поэтому мы останавливаем Nemesis, на время проверки liveness • Проверяем идет ли прогресс записей/чтений (Producer/Consumer) • Если прогресса нет — liveness ошибка 61

О залипшем кеше П1 П2 П3 Кеш данных Node Producer
Consumer 62

О залипшем кеше П1 П2 П3 Кеш данных Node Producer
Consumer 63

О залипшем кеше: выводы • При определенных сбоях на ноде
залипал кеш и чтения всегда возвращали ошибку. Записи при этом успешно проходили • Оптимизации производительности это хорошо, если они не нарушают гарантий системы • Новый компонент — новые баги • Возможна частичная потеря доступности 64

Забывчивый координатор К Координатор П1 — запущена Партиция Статус —
запущена Consumer 65 Producer П

Забывчивый координатор К П Координатор П1 — запущена Партиция Статус
— остановлена Consumer 66 Producer

Забывчивый координатор: выводы • При определенной комбинации сбоев координатор запуска
партиций считал, что партиция запущена, но она была остановлена • Сложно обнаружить проблему, потому что перезапуск партиции или ноды устранял «залипание» • Главная проблема — полная недоступность партиции 67

68 Заключение

69 https://twitter.com/CompSciFact/status/791389830420762624

Выводы • Будь готов к сбоям — они неизбежно будут
происходить • Изучай теорию — это помогает на практике • Знай свои инварианты — они описывают систему • Помни про liveness и доступность — эти свойства делают систему полезной 70

Андрей Сатарин Ведущий инженер по автоматизации тестирования https://twitter.com/asatarin [email protected] Контакты:

Ссылки • Testing Distributed Systems  https://asatarin.github.io/testing-distributed-systems/ • Simple Testing Can
Prevent Most Critical Failures  https://www.usenix.org/conference/osdi14/technical-sessions/ presentation/yuan • Яндекс изнутри: инфраструктура хранения и обработки данных  https://events.yandex.ru/events/meetings/15-oct-2016/ • Презентации Kyle Kingsbury  http://jepsen.io/talks.html

Тестирование распределенных систем

Тестирование распределенных систем

More Decks by Andrey Satarin

Other Decks in Technology

Featured

Transcript