
Если вам кажется, что ваше приложение никогда не работает нормально, то вы не одиноки. Вместе с лидом SRE команды из Тинькофф Мариной Калетуриной разберемся, что такое штатная работа приложения, и как понять, что приложение ведет себя неправильно.
Разберемся, как действовать инженеру, работающему с продом, в случае ЧП, как на основе гипотез и диагностики найти место сбоя и сузить круг подозреваемых, и как исправить ситуацию — расставить приоритеты и управлять командой для решения проблем.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
Книга Брендана Грегга Systems Performance https://www.amazon.com/Systems-Performance-Brendan-Gregg/dp/0136820158/ref=as_li_ss_tl?ie=UTF8&linkCode=sl1&tag=deirdrestraug-20&linkId=815ef3388ba65b674f4f8fd582713f24&language=en_US
Книга Мартина Клеппмана Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems https://www.amazon.com/Designing-Data-Intensive-Applications-Reliable-Maintainable/dp/1449373321
Jun 20, 2023
54 min

Обсуждаем надежность решений на Java вместе с Романом Карповым из BellSoft, по совместительству — советником министра цифрового развития по системному ПО. Обсудим, в чем заключаются отличия разных дистрибутивов Java и как их выбор влияет на надежность, поддерживаемость и другие «-сть» вашего решения.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
AxiomJDK https://axiomjdk.ru/
ИСП РАН - институт системного программирования от РАН РФ https://www.ispras.ru/
Positive Technologies https://www.ptsecurity.com/
PVS-Studio https://pvs-studio.ru/
Jun 20, 2023
44 min

В этом выпуске вместе с Павлом Притчиным, CTO из Dodo Engineering, обсудим надежность, отказоустойчивость и стрессоустойчивость системы.
Сравним точки зрения CTO и клиентов/SRE/разработчиков на надежность. Рассмотрим разные метрики и способы донести важность улучшения отказоустойчивости до клиента и руководства.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
Подкаст Павла «Разговоры СТО» на Apple Podcasts https://podcasts.apple.com/ru/podcast/%D1%80%D0%B0%D0%B7%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D1%8B-cto/id1588223281, Яндекс Музыке https://music.yandex.ru/album/18445239?dir=desc&activeTab=about, Mave https://ctotalks.mave.digital/
Jun 6, 2023
44 min

Что для бизнеса значит SLA? Должен ли SRE совмещать умения админа, DevOps и разработчика?
Говорим об этом вместе с Павлом Лакосниковым — TechLead SLA/Antimonolith-команды Авито. В этом выпуске сфокусируемся на паттернах отказоустойчивости и SL*. Кроме того, обсудим, как обстоят дела на российском рынке труда.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
Книги по SRE от Google https://sre.google/books/
Jun 6, 2023
53 min

Можно ли до написания кода системы понять, что она недостаточно надежная? Чтобы ответить на этот вопрос, нужно понять, что из хорошего «дизайна» является сутью надежности.
Рассмотрим System Design в разрезе надежности вместе с Александром Поломодовым — руководителем управления разработки цифровых экосистем Тинькофф. Так же пройдемся по структуре интервью, связанных с дизайном: на что обратить внимание и какие ошибки не стоит допускать.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
Книга Building Secure and Reliable System от Google https://www.amazon.com/Building-Secure-Reliable-Systems-Implementing/dp/1492083127
Книга Philosophy of Software Design https://www.amazon.com/Philosophy-Software-Design-John-Ousterhout/dp/1732102201
Обзор Александра на книгу Philosophy of Software Design https://apolomodov.medium.com/review-a-philosophy-of-software-design-part-1-980697f52698
Доклад «Паттерны отказоустойчивой архитектуры» https://www.youtube.com/watch?v=8GlwkWxf3hk&t=6866s
Книга Distributed Systems https://www.ozon.ru/product/raspredelennye-sistemy-217046083/?sh=p1jBWsCsyA
Обзор книги Distributed Systems https://apolomodov.medium.com/coa-distributed-systems-4th-ed-part1-introduction-c278a027ea30
Книга Clean Architecture https://www.labirint.ru/books/634082/
Обзор книги Clean Architecture https://apolomodov.medium.com/clean-architecture-review-part-1-f4784cd43e29
Книга Elegant Puzzle. Systems Engineering Management https://www.amazon.com/Elegant-Puzzle-Systems-Engineering-Management/dp/1732265186
Книга Building Evolutionary Architectures: Support Constant Change https://www.amazon.com/Building-Evolutionary-Architectures-Support-Constant/dp/1491986360
May 22, 2023
55 min

В этом выпуске вместе с Антоном Черноусовым из Yandex Cloud обсудим, какие особенности облачных сервисов могут повлиять на их надежность, а какие инструменты мониторинга помогут в обнаружении сбоев.
Разберем анатомию облака, managed services, балансировщики, кластеры, коннективити, конфигурации сети и настройки безопасности. Узнаем, где чаще всего возникают проблемы с облаками и какие инструменты мониторинга могут помочь их отследить.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
Канал Антона The Art of Programming в Телеграм https://t.me/taoplive
Доступные тренинги от Yandex Cloud https://cloud.yandex.ru/training
Тренинг DevSecOps в облачном CI/CD https://cloud.yandex.ru/training/devsecops
May 22, 2023
1 hr 1 min

Как программисту понять, что он пишет ненадежное решение? Как можно влиять на надежность, если SRE подключается в самом конце процесса разработки? Что стоит за метриками SL* и какие они могут быть? Что должен уметь специалист SRE? Все это и многое другое мы обсудим с руководителем центра надежности информационных систем в Тинькофф, Дмитрием Масленниковым.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
Подборка материалов на английском по SRE https://github.com/dastergon/awesome-sre
Телеграм-чат SRE Pub https://t.me/sre_pub
May 22, 2023
1 hr

Что такое отказоустойчивость? Это свойство системы сохранять работоспособность после отказа одной или более ее частей. А почему нам нужно знать, как работает инфраструктура? Ответ на этот вопрос дадут гости выпуска Максим Чернухин, архитектор цифровой платформы и IT-лидер из Альфа-Банка, и Кирилл Толкачев, CIO из JUG Ru Group.
Ведущий подкаста — Андрей Дмитриев, сооснователь JUG Ru Group.
Идейный вдохновитель и партнер подкаста - команда Тинькофф.
Полезные ссылки:
Книга Realise It! https://www.ozon.ru/product/release-it-proektirovanie-i-dizayn-po-dlya-teh-komu-ne-vse-ravno-pdf-epub-135464861/?sh=_VtydmUdzw
Книга Art of Scalability https://www.amazon.com/Art-Scalability-Architecture-Organizations-Enterprise/dp/0134032802
Блог Брендана Грегга https://www.brendangregg.com/
Блог Netflix TechBlog https://netflixtechblog.com/
Google Cloud whitepapers https://cloud.google.com/whitepapers
Alfa Backend Stories Meetup #1 (про отказоустойчивость) https://www.youtube.com/watch?v=zEuia53cWJw
Доклад Олега Анастасьева “Распределенные системы в Одноклассниках” https://www.youtube.com/watch?v=JZiQKgx2HJM
May 15, 2023
1 hr 15 min
