Engineering Reliable Mobile Applications (short summary)

Мобильная надёжность сложна тем, что значительная часть отказов живёт на устройстве, в сети и в релизном канале, а не в датацентре.

Глава показывает, как поэтапный запуск, фича-флаги, клиентская телеметрия и понимание влияния на серверную сторону формируют отдельную практику надёжности мобильных приложений.

На интервью материал помогает говорить о риске мобильного релиза, наблюдаемости на стороне клиента и том, почему модель клиент-сервер меняет подход к надёжности.

Практическая польза главы

Практика проектирования

Переводите знания о мобильной надёжности, клиентской телеметрии и безопасном выпуске приложений в конкретные эксплуатационные решения: правила оповещений, границы операционных инструкций и стратегии отката.

Качество решений

Оценивайте архитектуру через целевые уровни сервиса, бюджет ошибок, среднее время восстановления и устойчивость критического пути, а не только через функциональную полноту.

Аргументация на интервью

Структурируйте ответ вокруг жизненного цикла надёжности: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Формулировка компромиссов

Явно фиксируйте компромиссы по мобильной надёжности, клиентской телеметрии и безопасном выпуске приложений: скорость релизов, уровень автоматизации, стоимость наблюдаемости и операционная сложность.

Источник

Краткий обзор на русском

Мой разбор книги на Tell Me About Tech

Читать статью

Engineering Reliable Mobile Applications

Авторы: Kristine Chen, Venkat Patnala, Devin Carraway, Pranjal Deo
Издательство: O'Reilly Media, 2019
Объём: 35 страниц

Практики Google для надёжности мобильных приложений: клиентская телеметрия, поэтапный запуск, фича-флаги, поддержка версий и влияние клиента на серверную нагрузку.

Оригинал

В этой главе рассматривается через : , , , , , невозможность обычного , старых версий и . Ключевая мысль одна: в мобильном продукте ломается далеко не только на сервере. Часть отказов живёт на устройстве, в сети, в релизном канале и в конкретной версии приложения, и до них серверный мониторинг не дотягивается.

Особенности мобильной надёжности

SRE Book

Site Reliability Engineering

Основы показателей, целевых уровней, соглашений об уровне сервиса и бюджета ошибок

Глава курса

Показатели и целевые уровни сервиса для мобильных приложений

Для мобильного приложения недостаточно смотреть только на серверные логи: пользователь может страдать от краша, плохой сети, старой версии, некорректной конфигурации или медленного устройства. Поэтому измерение начинается с и статистики по .

SLI

фиксирует, что именно считаем: долю успешных сессий, краши, задержку ключевого действия, свежесть данных или качество синхронизации.

SLO

задаёт допустимый риск для пользовательского пути. Для мобильного продукта цель должна учитывать устройство, версию приложения и качество сети.

Мониторинг мобильного приложения

В серверном контуре изменение обычно видно быстро. В мобильном продукте сигналы доходят медленнее: пользователи обновляются постепенно, приложение может отправлять данные пакетами, а часть устройств долго остаётся вне сети. Поэтому метрики должны показывать не только факт ошибки, но и версию, конфигурацию и релизный канал.

Доля ошибок с малой задержкой

Проектируйте метрики так, чтобы знаменатель был достаточно надёжным: это помогает отличать реальную деградацию от обычных колебаний трафика после выпуска.

Состояние конфигурации как измерение

Добавляйте в , чтобы видеть, какие устройства уже получили исправление или новый флаг.

Мониторинг внутренних сигналов

Метрики и события из инструментированного кода приложения: ошибки, длительность операций, состояние конфигурации и качество пользовательских путей.

Мониторинг внешнего поведения

Проверки, которые имитируют пользователя снаружи: запуск сценария, сетевой запрос, периодический или синтетическая проба.

По отдельности каждый подход слеп: внутренние сигналы объясняют причину, но молчат, когда приложение вовсе не доходит до кода; внешнее поведение показывает, что видит пользователь, но не говорит почему. Их держат вместе.

CI/CD

Grokking Continuous Delivery

Практики непрерывной доставки

Глава курса

Управление изменениями

Для мобильного приложения управление изменениями особенно критично: почти невозможен, а часть ошибок после выпуска нельзя исправить мгновенно. В худшем случае неудачный бинарный релиз может привести к .

Поэтапный запуск мобильной версии

Внутренний запуск(1% пользователей)

Сотрудники, тестировщики и внутреннее использование приложения.

В мобильном мире обычный откат почти недоступен: исправление чаще приходит через новую версию или отключение поведения фича-флагом.

Кейс

Проектирование A/B платформы

Архитектура системы экспериментов для веба и мобильных приложений

Разобрать задачу

Фича-флаги и A/B-тестирование

Мобильная экосистема неоднородна: отличаются процессор (CPU), память, пропускная способность сети, версия ОС и качество устройства. Метрики сразу после релиза легко принять за чистую картину, но они смещены: новую версию первыми ставят на более современных устройствах, и проблемы слабых телефонов всплывут позже.

Поддержка старых версий

Частые релизы создают длинный хвост версий на устройствах пользователей. Поэтому нужна политика поддержки: какие версии ещё получают серверную совместимость, критические исправления и корректные сообщения об обновлении.

Горизонт поддержки

должен быть явным: например, один или два года. Без этой границы команда бесконечно тянет старые контракты программных интерфейсов (API), конфигурации и поведение клиентов, и каждое серверное изменение приходится сверять со всем хвостом версий.

Устойчивость

Release It!

Паттерны защиты от каскадных отказов

Глава курса

Влияние на серверную сторону

Изменения в клиентском коде могут резко поменять серверную нагрузку. Например, новая политика кэширования или синхронизации способна увеличить количество запросов на порядок и спровоцировать отказ зависимых сервисов.

Перед выпуском важно проверить, как изменение клиента влияет на серверные лимиты, повторные запросы, очереди и деградацию зависимостей.

Надежда не стратегия для мобильного приложения

Чтобы релиз не держался на удаче, авторы сводят опыт Google к четырём практикам — от проектирования до контроля нагрузки:

Проектируйте

Делайте мобильное приложение устойчивым к неожиданным входным данным, ошибкам управления, устаревшим настройкам и неидеальной сети. Изменения должны включаться управляемо и по измеримым сигналам.

Наблюдайте

Измеряйте критические пользовательские взаимодействия, , и . Критерии успеха должны отражать ожидания пользователя, а не только здоровье серверов.

Выпускайте

Включайте поведение через , чтобы оценивать его экспериментами, ограничивать аудиторию и отключать риск без нового бинарного релиза.

Понимайте

Учитывайте : клиент может создать или дорогое изменение нагрузки. Закладывайте безопасные между приложением и сервисами.

Главные выводы

адаптирует серверные подходы к ограничениям устройств, сетей и магазинов приложений.

Обычный почти недоступен: нужна готовность к .

помогают отделить выпуск бинарника от запуска нового поведения.

нужна, чтобы видеть реальные ошибки, задержки и краши на устройствах.

снижает риск массовой регрессии.

Изменения клиента могут резко поменять нагрузку на серверную сторону, особенно при изменении кэширования, синхронизации или повторных запросов.

Связанные главы

Site Reliability Engineering - Базовые практики : , , , и .
The Site Reliability Workbook - Практическое продолжение подхода из книги: шаблоны внедрения, и операционные процессы.
Building Secure and Reliable Systems - Показывает, как совместить требования надёжности и безопасности в промышленных системах.

Где найти книгу

Оригинал

learning.oreilly.com

Engineering Reliable Mobile Applications

Engineering Reliable Mobile Applications (short summary)

Практическая польза главы

Engineering Reliable Mobile Applications

Особенности мобильной надёжности

Особенности мобильной надёжности

Показатели и целевые уровни сервиса для мобильных приложений

SLI

SLO

Мониторинг мобильного приложения

Доля ошибок с малой задержкой

Состояние конфигурации как измерение

Мониторинг внутренних сигналов

Мониторинг внешнего поведения

Управление изменениями

Поэтапный запуск мобильной версии

Фича-флаги и A/B-тестирование

Рекомендация Google

Поддержка старых версий

Горизонт поддержки

Влияние на серверную сторону

Надежда не стратегия для мобильного приложения

Проектируйте

Наблюдайте

Выпускайте

Понимайте

Главные выводы

Связанные главы

Где найти книгу