System Design Space
Граф знанийНастройки

Обновлено: 2 мая 2026 г. в 10:22

Платформы данных в 2025 году: интервью с Николаем Головым

сложный

Интервью Research Insights Made Simple #6 о платформах данных в 2025 году: централизация и федерализация, подход Data Mesh, OLTP/MPP, операционная модель, управление, стоимость и эволюция платформ.

Этот выпуск полезен тем, что приземляет разговор о платформах данных из общего хайпа в реальные вопросы централизации, федерализации, подхода Data Mesh и границ между OLTP, MPP и платформенными сервисами.

В реальной инженерной работе он помогает переводить рыночные идеи 2025 года в карту возможностей и конкретные архитектурные решения, а не в очередной список инструментов, который команда потом будет годами поддерживать.

На интервью и архитектурных обсуждениях глава особенно сильна там, где нужно показать риск разрастания набора инструментов, зависимости от вендора и стоимости платформы, которая растёт быстрее реальной пользы.

Практическая польза главы

Практика проектирования

Переводит рыночные тренды 2025 года в конкретные архитектурные решения для команд платформ данных.

Качество решений

Помогает оценивать зрелость платформы через карту возможностей, а не через перечень технологий.

Аргументация на интервью

Добавляет актуальный контекст для обсуждения современного стека данных, управления и контроля стоимости.

Риски и компромиссы

Подсвечивает риск разрастания набора инструментов, зависимости от вендора и неуправляемой стоимости платформы.

Платформы данных в 2025 году: интервью с Николаем Головым

Интервью о практической архитектуре современных платформ данных: операционная модель, платформа как продукт, ограничения OLTP/MPP и реалистичный путь внедрения без организационного хаоса.

Год:2025
Производство:Research Insights Made Simple
Фокус:операционная модель платформы данных и инженерная реализация

Источник

Telegram: Книжный куб

Пост с кратким конспектом интервью и основными тезисами выпуска.

Читать обзор

О выпуске

Разговор концентрируется на главном вопросе 2025 года: как построить платформу данных, которая ускоряет продуктовые команды, а не усложняет им жизнь. В центре обсуждения - баланс между доменной автономией, едиными платформенными стандартами и контролем стоимости.

Важный практический акцент: вместо абстрактных споров про «правильный стек» интервью показывает, почему успех платформы чаще определяется операционной моделью, зонами ответственности и качеством платформенных возможностей.

В этой главе рассматривается через , , , , и . Дальше мы связываем , , и с практикой внедрения.

Гость и контекст

Николай Голов

  • Head of Data Engineering в ManyChat.
  • Бывший руководитель платформы данных в Авито.
  • Практик по построению платформ данных и преподаватель в области баз данных.

Интервью полезно тем, что связывает организационные решения и архитектурные компромиссы, а не рассматривает их отдельно.

Что изменилось в 2025 году

  • Компании перестали спорить только о выборе хранилища и всё чаще обсуждают операционную модель платформы.
  • Рост числа дата-продуктов усилил спрос на самообслуживание и одновременно повысил цену ошибок в управлении.
  • Разделение хранения и вычислений, а также открытые форматы таблиц стали базовым ожиданием, а не экспериментом.
  • LLM- и сценарии с малой задержкой усилили требования к свежести данных и наблюдаемости конвейеров.
  • Экономика платформы данных, включая FinOps, стала архитектурным ограничением наравне с задержкой и надёжностью.

Связанная глава

Краткий обзор платформы данных Т-Банка

Практический кейс эволюции платформы данных от DWH-подхода к lakehouse-хранилищу.

Открыть разбор

Организационные модели платформы данных

Централизованная платформа

Когда работает: Ранний этап или ограниченное число доменов и аналитических команд.

Сильные стороны

  • Единые стандарты качества, безопасности и инструментов.
  • Быстрое внедрение базовых платформенных сервисов.

Риски

  • Платформенная команда становится узким местом для доменных запросов.
  • Слабая ответственность продуктовых команд за качество исходных данных.

Гибридная модель: платформа и доменные команды

Когда работает: Средняя или крупная компания с разными продуктами и SLA/SLO к данным.

Сильные стороны

  • Платформа развивает общие возможности, домены владеют дата-продуктами.
  • Сокращается время до получения данных без потери стандартов и контроля стоимости.

Риски

  • Требуются чёткие интерфейсы владения и договорённости по контрактам.
  • Без управления легко получить расхождение в качестве, схемах и семантике.

Федеративная модель: зрелый Data Mesh

Когда работает: Очень крупные организации с автономными доменными подразделениями.

Сильные стороны

  • Максимальная доменная скорость и локальная ответственность.
  • Масштабирование зон ответственности без централизации всех решений.

Риски

  • Риск разрозненной сетки данных: много локальных решений без единой планки качества.
  • Высокая стоимость координации, если общий платформенный слой недоинвестирован.

Референсная архитектура платформы данных

Слой приёма и захвата данных

Фокус: CDC, событийные шины, пакетные коннекторы и приём данных по контрактам.

Ключевая цель - стабильно и предсказуемо доставлять данные в платформу с контролем свежести и схем.

Слой хранения и форматов таблиц

Фокус: Объектное хранилище, открытые форматы таблиц Iceberg/Delta/Hudi, партиционирование и сжатие файлов.

Этот слой отвечает за долговечность, эволюцию схем и изоляцию вычислений от физического хранения.

Слой вычислений и преобразований

Фокус: Пакетная и потоковая обработка, преобразования dbt/SQL, оркестрация и повторные запуски.

Именно здесь формируются витрины, готовые для доменов, целевые окна свежести и повторяемость конвейеров.

Слой выдачи и потребления

Фокус: BI, обратная загрузка данных, хранилище признаков, API-доступ к дата-продуктам и MPP-выдача.

Слой потребления должен поддерживать самообслуживание и одновременно оставаться управляемым по стоимости и доступам.

Слой управления и надёжности

Фокус: Каталог, происхождение данных, контракты, проверки качества, наблюдаемость и сценарии реагирования на инциденты.

Без этого слоя платформа быстро накапливает скрытый долг и теряет доверие со стороны бизнеса.

Типичные антипаттерны

Data Mesh без платформы

Проблема: Команды объявляются автономными, но не получают общих возможностей для контрактов, качества и поиска данных.

Что делать: Сначала соберите общий платформенный слой и минимальные правила управления, потом расширяйте федерализацию.

Один MPP как ответ на всё

Проблема: MPP закрывает часть OLAP-нагрузки, но не решает надёжность приёма данных, контракты и ответственность.

Что делать: Проектируйте MPP как слой выдачи внутри более широкого контура платформы данных.

Сырые данные без продуктовой ответственности

Проблема: Никто не отвечает за качество смысла, из-за чего команды-потребители строят несовместимые метрики.

Что делать: Назначьте владельцев дата-продуктов и публичные SLA/SLO на качество и свежесть.

Фокус только на технологиях

Проблема: Команда улучшает стек, но не сокращает время до получения данных для продуктовых команд.

Что делать: Каждую инициативу связывайте с бизнес-метрикой: временем поставки, надёжностью или стоимостью запроса.

Паттерны, которые работают

  • Контракты на данные как обязательный интерфейс между командами-поставщиками и командами-потребителями.
  • Единый каталог и происхождение данных для поиска зависимостей и анализа влияния изменений.
  • Стандартизованные слои Bronze/Silver/Gold и семантический слой для предсказуемого пути данных.
  • Продуктовая ответственность с SLO на свежесть, полноту и стабильность схемы.
  • FinOps-контур платформы: бюджетирование вычислений, оптимизация хранения и showback/chargeback.

Дорожная карта внедрения на 180 дней

0-30 дней

Базовая картина и карта ограничений

Инвентаризация источников, критичных конвейеров, текущих SLA/SLO и инцидентов. Фиксация базовой архитектурной картины и проблем, которые действительно мешают продуктовым командам.

30-60 дней

Минимум управления и единые интерфейсы

Внедрение контрактов на данные, каталога и базовых проверок качества для критичных доменов. Формализация правил эволюции схем и ответственности за дата-продукты.

60-120 дней

Возможности самообслуживания

Запуск шаблонов приёма и преобразования данных, стандартов наблюдаемости и повторяемых шаблонов конвейеров. Цель - сократить время до первого набора данных для нового сценария.

120-180 дней

Экономика и масштабирование модели

Подключение showback/chargeback, оптимизация вычислений и хранения, расширение доменной ответственности. На этом этапе гибридная модель обычно становится основной.

Связанная глава

Data Governance & Compliance

Практики качества, происхождения данных и контроля доступа в платформе данных.

Открыть главу

Метрики зрелости платформы

Время до первого набора данных

Ориентир: < 1 неделя

Скорость доставки новых данных в продуктовые команды.

Надёжность конвейеров

Ориентир: 99.9%+

Доля успешных запусков критичных конвейеров без ручного вмешательства.

Соблюдение SLO по свежести

Ориентир: >= 95%

Насколько часто данные укладываются в заявленные окна актуальности.

Частота инцидентов схемы

Ориентир: Снижение квартал-к-кварталу

Частота инцидентов из-за несовместимых изменений схемы.

Стоимость полезного инсайта

Ориентир: Контролируемое снижение

Связка стоимости платформы с реальной ценностью для бизнеса.

Доля повторного использования

Ориентир: > 60%

Доля повторно используемых дата-продуктов и шаблонных конвейеров.

Связанные материалы и источники

Чтобы отмечать прохождение, включи трекинг в Настройки