Big Data (краткий обзор)

Big Data важна не только как историческая книга про архитектуру Lambda, а как хороший способ увидеть цену разделения пакетного слоя, слоя выдачи и оперативного слоя.

В реальной инженерной практике она помогает понять, где неизменяемая история событий, приближённые алгоритмы и отдельные вычислительные контуры действительно оправданы, а где архитектура начинает проигрывать собственной сложности.

На интервью и архитектурных обсуждениях она особенно полезна, когда нужно честно объяснить, почему низкая задержка, точность результата и простота эксплуатации редко помещаются в одну схему без серьёзных компромиссов.

Практическая польза главы

Практика проектирования

Формирует целостный взгляд на пакетный контур, потоковую обработку и слой выдачи для аналитики большого объёма.

Качество решений

Помогает осознанно выбирать архитектурный стиль по задержке, стоимости пересчёта и точности результата.

Аргументация на интервью

Добавляет практические критерии для выбора архитектуры Lambda, архитектуры Kappa или гибридного подхода.

Риски и компромиссы

Показывает, где архитектура данных начинает деградировать из-за сложности и изменения свойств входных данных.

Источник

Обзор книги

Оригинальный обзор Александра Поломодова на tellmeabout.tech

Перейти на сайт

Big Data: Principles and Best Practices of Scalable Realtime Data Systems

Авторы: Nathan Marz, James Warren
Издательство: Manning Publications
Объём: 328 страниц

Nathan Marz об архитектуре Lambda: пакетный слой, слой выдачи, оперативный слой, неизменяемый журнал событий, пакетные и оперативные представления, HyperLogLog и цена сложности.

Оригинал

начинается с и : входящие факты сохраняются как , чтобы историю можно было пересчитать заново.

Затем строит , закрывает свежие события через и , а объединяет результаты для запросов с низкой .

Архитектура Lambda

Связанная тема

DDIA: пакетная и потоковая обработка

DDIA подробно разбирает пакетные пересчёты, потоковую обработку и материализованные представления.

Читать обзор

Полный исторический пересчёт даёт точность, но не успевает за свежими событиями; быстрый ответ по свежим событиям точность теряет. Архитектура Lambda не выбирает между ними, а разносит компромисс по трём слоям:

Пакетный слой

Хранит главный набор данных как неизменяемую историю событий и пересчитывает точные представления по всей накопленной истории.

Слой выдачи

Индексирует предвычисленные представления и отдаёт быстрые ответы, пока пакетный слой готовит следующий полный пересчёт.

Оперативный слой

Обрабатывает свежие события между пакетными пересчётами и строит приближённые агрегаты для низкой задержки.

Карта архитектуры Lambda

главный набор данных + пакетные представления + оперативные представления

Журнал событий

неизменяемый набор

Пакетный слой

периодический пересчёт

Пакетные представления

точные агрегаты

Слой выдачи

объединение ответов

Журнал событий

тот же источник

Оперативный слой

быстрый поток

Оперативные представления

низкая задержка

API запросов

готовый ответ

Журнал событий

неизменяемый источник только для добавления

Пакетный слой -> представления

точные агрегаты по полному набору данных

Оперативный слой -> представления

низкая задержка между пакетными пересчётами

Слой выдачи -> API запросов

объединение пакетных и оперативных представлений

Архитектура Lambda совмещает точные пакетные пересчёты, быстрый оперативный слой и единый слой выдачи для запросов.

"The Lambda Architecture provides a general-purpose approach to implementing an arbitrary function on an arbitrary dataset and having the function return its results with low latency"

— Nathan Marz

Желаемые свойства системы обработки больших данных

Прежде чем выбирать инструменты, авторы фиксируют, что система обработки больших данных должна выдерживать на проде. Это и есть набор требований, по которым потом проверяют каждое решение:

Горизонтальное масштабирование

Систему можно расширять добавлением узлов, а не переписыванием архитектуры.

Отказоустойчивость

Аппаратные сбои не должны приводить к потере истории и производных представлений.

Исправление ошибок

Ошибки в коде или данных можно исправить повторным пересчётом из исходной истории.

Низкая задержка

Пользовательские запросы получают свежий ответ без ожидания полного пакетного запуска.

Гибкие вычисления

Архитектура поддерживает новые представления и алгоритмы поверх уже накопленных данных.

Контролируемая сложность

Команда понимает, какие контуры отвечают за точность, свежесть и выдачу результатов.

Структура книги

Часть 1: пакетный слой

Модель данных, главный набор данных и вычисление точных представлений по полной истории.

Модель данныхГлавный наборПакетные представленияMapReduce

Часть 2: слой выдачи

Индексация и выдача предвычисленных представлений для быстрых пользовательских запросов.

ИндексацияВыдача представленийElephantDB

Часть 3: оперативный слой

Быстрая обработка свежих событий и компенсация задержки между пакетными пересчётами.

Оперативные представленияПотоковая обработкаApache StormМикропакеты

Практические примеры из книги

Теория проверяется на типовых задачах аналитики: считать события, оценивать уникальных пользователей и доли — там, где точный пересчёт и приближённый ответ дают разную цену:

📊

URL Page Views

Подсчёт просмотров страниц по временным интервалам.

👥

Unique Visitors

Приближённая оценка числа уникальных пользователей с HyperLogLog.

🚨

Bounce Rate

Расчёт доли отказов по всему сайту или домену.

Технологический стек примеров

Хранение

HDFS

Пакетный слой

Hadoop

Слой выдачи

ElephantDB

Оперативный слой

Storm

* Технологии из книги 2015 года. Современные альтернативы: Spark, Flink, Kafka Streams.

Связанные главы

Designing Data-Intensive Applications: приложения, интенсивно работающие с данными (краткий обзор) - Фундаментальная теория распределённых данных, которая дополняет Lambda-подход и объясняет ключевые компромиссы.
Потоковая обработка данных (краткий обзор) - Практики потоковой обработки и проектирование оперативного контура как развитие идей Lambda.
Kafka: The Definitive Guide, 2nd Edition (краткий обзор) - Журнал событий и платформа доставки, на которых часто строят современные потоковые контуры.
Kappa Architecture: потоковая альтернатива Lambda - Эволюция Lambda-идей в сторону единого потокового контура без отдельной пакетной ветки.
Архитектура конвейеров данных: извлечение, преобразование и загрузка (ETL) и ELT - Операционный взгляд на конвейеры данных, качество данных и оркестрацию пересчётов.
Distributed Message Queue - Практический кейс про очереди и потоковую доставку: порядок сообщений, долговечность данных и масштабирование под нагрузкой.
Distributed File System (GFS/HDFS) - Низкоуровневая основа пакетного хранения и архитектурные решения распределённых файловых систем.
Data Mesh in Action: подход Data Mesh (краткий обзор) - Организационная эволюция платформ данных: от централизованной Lambda-модели к доменной ответственности за данные.
Краткий обзор платформы данных Т-Банка - Реальный платформенный кейс со связкой пакетной и потоковой обработки, табличного слоя поверх озера данных и продуктового мышления о данных.
Google Global Network: эволюция и архитектурные принципы для эпохи ИИ - Сетевой контекст для межрегиональной передачи и обработки больших потоков данных с низкой задержкой.

Где найти книгу

Оригинал

manning.com

Big Data: Principles and Best Practices of Scalable Realtime Data Systems