Neo4j: графовая база данных и архитектура

Neo4j полезно рассматривать не как красивый способ рисовать связи, а как ответ на запросы, которые в таблицах превращаются в длинные цепочки JOIN и сложную логику обхода графа.

В реальной инженерной работе эта глава помогает трезво оценить, когда графовый подход действительно нужен, как проектировать узлы, связи и свойства под многошаговые обходы и как не скатиться в неуправляемый граф ради самого графа.

На интервью и в архитектурных обсуждениях она особенно ценна, когда нужно показать, почему реляционная или документная модель в данном кейсе ломает читаемость запросов, задержки или сложность продукта.

Практическая польза главы

Критерии пригодности графа

Выбирайте графовую базу данных только там, где обходы графа и запросы по связям критичны для продукта.

Моделирование связей

Проектируйте узлы, связи и свойства так, чтобы упростить запросы по путям и не создавать сверхсвязных хабов.

Кластерные компромиссы

Учитывайте ограничения масштабирования записи и консистентности перед переносом ключевых транзакций в граф.

Формулировка на интервью

Показывайте, почему реляционный или документный подход недостаточен для конкретной графовой задачи.

Рамка выбора и редакторский фокус

Фокус главы

графовой модели, запросах Cypher и кластерных компромиссах Neo4j

Профиль нагрузки

Начинайте с специализированного запроса: аналитика, поиск, временные ряды, графовые обходы, векторное извлечение или мониторинговые метрики.

Когда выбирать

Выбор оправдан, когда модель индекса или хранения напрямую совпадает с продуктовой задачей и разгружает источник истины.

Граница и риск

Опасность — превратить специализированный слой в универсальную БД и потерять границы консистентности, свежести и владения данными.

Связать дальше

Связывайте главу с источником транзакционных данных, конвейером данных, удержанием данных, компакцией и архитектурой слоя модели чтения.

Источник

Wikipedia: Neo4j

История Neo4j, модель графа свойств и контекст применения графовых баз данных.

Открыть статью

Официальный сайт

Neo4j

Документация, продуктовые возможности и современные сценарии использования графовой платформы.

Открыть сайт

Neo4j — графовая СУБД, оптимизированная под хранение и обход связей. В системном дизайне её берут не ради новой модели как таковой, а когда связи между сущностями становятся центральной частью продукта: рекомендации, выявление мошенничества, знания о домене, графы идентичности и авторизации. Там, где запрос — это маршрут по связям, реляционная схема начинает мешать.

В этой главе рассматривается через : , , свойства и становятся частью архитектурного решения. Практически важны , , , , и .

История и контекст

2000-2007

Идея графовой СУБД и первый публичный релиз

Проект Neo4j развивается из практической потребности хранить и обрабатывать связанные данные; первый публичный релиз появляется в 2007 году.

2010-е

Расширение промышленного применения

Neo4j закрепляется в рекомендациях, выявлении мошенничества и графах знаний. Объединяет их одно: ответ требует пройти несколько шагов по связям, а это та нагрузка, на которой реляционные соединения теряют скорость.

2020+

Облако и кластерная эксплуатация

Вызревают облачные предложения и практики эксплуатации кластеров: запись и чтение разводятся по разным ролям узлов, и это становится сознательным выбором, а не деталью развёртывания.

2023+

Графы и сценарии ИИ

Граф начинают сочетать с векторным поиском и подключать к генеративным контурам (GenAI): связи дают контекст и объяснимость там, где одно лишь сходство векторов оставляет ответ без опоры.

Ключевые архитектурные элементы

Модель графа свойств

Данные представлены как узлы, связи и свойства. Связи являются самостоятельными сущностями, а не побочным эффектом таблиц связей.

Cypher и сопоставление шаблонов

Язык запросов Cypher описывает графовый шаблон декларативно: вы задаёте форму связей, а глубину обхода оставляете переменной. Цепочки JOIN такой обход выражают многословно и дорого.

Ограничения и индексы

Уникальные ограничения держат целостность данных, а индексы дают опорные точки, с которых начинается обход. Без них обход стартует с полного перебора узлов и теряет смысл графовой модели.

Кластер и роли узлов

Запись идёт только через ведущий узел, чтение разгружается на последователей и реплики для чтения. Плата за это — отставание реплик: свежезаписанная связь видна на чтении не сразу.

Cypher, сопоставление графовых шаблонов и реляционная алгебра

Графовый шаблон на языке Cypher можно разложить в реляционную форму: цепочку соединений (JOIN), фильтрацию (SELECT) и проекцию (PROJECT). Это удобный мост для тех, кто думает реляционно: одно и то же выражают двумя записями, но цена обхода у них разная. Ниже — пошаговая визуализация соответствия.

Cypher: сопоставление шаблона и реляционная алгебра

Один и тот же запрос можно читать как обход графа и как цепочку JOIN + SELECT + PROJECT над таблицами.

Обход графа (сопоставление шаблона)

Стартуем с узла пользователя `u-1001` через точечный поиск.

SELECT в `Users` по `user_id = 'u-1001'`.

Эквивалент в таблицах

Users

user_id	name
u-1001	Alice
u-2042	Bob
u-3007	Carol

Follows

follower_id	followee_id
u-1001	u-2042
u-1001	u-3007

Posts

post_id	author_id	topic
p-501	u-2042	graph
p-777	u-3007	caching

Cypher-запрос

MATCH (u:User {userId: "u-1001"})-[:FOLLOWS]->(f:User)-[:AUTHORED]->(p:Post)
WHERE p.topic = "graph"
RETURN DISTINCT p.postId, p.title;

Эквивалентный SQL

SELECT DISTINCT p.post_id, p.title
FROM users u
JOIN follows f ON u.user_id = f.follower_id
JOIN posts p ON f.followee_id = p.author_id
WHERE u.user_id = 'u-1001'
  AND p.topic = 'graph';

Приведение к реляционной алгебре

PROJECT{p.post_id, p.title} (
  SELECT{u.user_id='u-1001' AND p.topic='graph'} (
    (Users u JOIN_{u.user_id=f.follower_id} Follows f)
      JOIN_{f.followee_id=p.author_id} Posts p
  )
)

Как маппится модель

Метка узла -> таблица сущности (`User`, `Post`).
Тип связи -> таблица связей (`Follows`) или FK-колонка.
Расширение шаблона `()-[:REL]->()` -> `JOIN` по ключам.
`WHERE` в Cypher -> операция `SELECT`, `RETURN` -> `PROJECT` (и `DISTINCT` при необходимости).

Архитектура Neo4j по слоям

Общий контур Neo4j в продуктовой системе: слой приложений, путь выполнения запроса Cypher, графовое хранение с индексами и кластерные механики чтения и записи. Полезно держать в голове целиком — узкое место чаще всего на стыке слоёв, а не внутри одного.

Клиенты и API

BoltHTTP APICypherNeo4j Browser

Переход между слоями

Маршрутизация и планирование

Разбор запросаПланировщикСреда выполненияОптимизация по стоимости

Переход между слоями

Графовая модель

УзлыСвязиСвойстваМетки и типы связей

Переход между слоями

Хранение и индексы

Страничный кэшНативное хранениеB-tree/RANGE-индексыПолнотекстовые индексы

Переход между слоями

Кластер и репликация

RaftВедущий/последовательРеплики для чтенияПереключение на резерв

Переход между слоями

Эксплуатация

Резервные копииБезопасностьМониторингОграничения схемы

Системный взгляд

Neo4j обычно используют как графовое операционное хранилище, когда связи и многошаговые обходы являются требованиями первого порядка.

Графовые паттерны

Многошаговые обходыСопоставление шаблоновМоделирование от связей

Целостность и гарантии

ACID-транзакцииУникальные ограниченияИндексы схемы

Где полезно в дизайне

РекомендацииГрафы риска и мошенничестваГраф знаний / GraphRAG

Пути записи и чтения через компоненты

Диаграмма сводит вместе путь записи и путь чтения: как запросы Cypher маршрутизируются, выполняются и в какой момент результат становится виден клиенту в кластере Neo4j. Именно этот момент видимости и определяет, что увидит пользователь сразу после записи.

Пути записи и чтения

Интерактивный разбор прохождения Cypher-запросов через компоненты Neo4j.

Запрос клиента

CREATE MERGE SET

Маршрутизатор

ведущий узел

Среда выполнения Cypher

план + выполнение

Фиксация через Raft

журнал транзакций

Видимое состояние

индексы + кэш

Запрос клиента

CREATE MERGE SET

Маршрутизатор

ведущий узел

Среда выполнения Cypher

план + выполнение

Фиксация через Raft

журнал транзакций

Видимое состояние

индексы + кэш

Путь записи: транзакция идёт через ведущий узел, фиксируется в журнале и реплицируется в кластер перед подтверждением.

Путь записи

Приложение отправляет Cypher-команду записи через Bolt или HTTP.
Маршрутизатор кластера направляет запись на ведущий узел, чтобы сохранить сериализуемый порядок коммитов.
Ведущий узел выполняет запрос, пишет журнал транзакций и реплицирует изменения через Raft.
После подтверждения кворума транзакция фиксируется, а индексы и кэш отражают новое состояние.

Когда выбирать Neo4j

Хорошо подходит

Системы с высокой плотностью связей: социальные графы, рекомендации, выявление мошенничества и анализ риска.
Графы знаний и сценарии дополненной графом генерации (GraphRAG), где от ответа ждут связей, контекста и объяснимости, а не только релевантности.
Многошаговый обход графа: то, что в реляционной модели разворачивается в длинные цепочки соединений (JOIN) и платится ростом времени запроса.
Домены, где модель связей часто меняется и схему нужно держать гибкой, не переписывая запросы под каждое изменение.

Стоит избегать

Простые операции создания и чтения записей (CRUD) без сложных связей и графовых обходов — граф здесь лишний слой.
Чисто аналитические нагрузки на огромных колоночных наборах данных: для них есть специализированные движки.
Команда не готова к графовому моделированию и профилированию обходов — без этого граф быстро деградирует в медленные запросы.
Главное ограничение — массовые журналы с данными только для добавления, где связи между сущностями вторичны.

Практика: DDL и DML

Практические примеры команд Cypher: от ограничений и индексов (язык описания данных, DDL) до запросов MERGE/MATCH для обхода графа (язык манипулирования данными, DML). Порядок не случаен — без ограничений и индексов запросы обхода работают, но платят за это скоростью.

Примеры DDL и DML в Neo4j

DDL управляет ограничениями и индексами, DML моделирует граф и выполняет запросы с обходом связей.

DDL в Neo4j задаёт структурные гарантии и ускоряет чтение: уникальные ограничения, диапазонные и полнотекстовые индексы.

Уникальность бизнес-ключа для User

Cypher: CREATE CONSTRAINT

Гарантирует целостность графа и предотвращает дубли для userId.

CREATE CONSTRAINT user_id_unique IF NOT EXISTS
FOR (u:User)
REQUIRE u.userId IS UNIQUE;

Диапазонный индекс для частых фильтров по дате

Cypher: CREATE RANGE INDEX

Ускоряет фильтрацию и сортировку по createdAt.

CREATE RANGE INDEX post_created_at_idx IF NOT EXISTS
FOR (p:Post)
ON (p.createdAt);

Полнотекстовый индекс для контентного поиска

Cypher: CREATE FULLTEXT INDEX

Комбинирует обход графа с полнотекстовым поиском по title/body.

CREATE FULLTEXT INDEX post_content_ft IF NOT EXISTS
FOR (p:Post)
ON EACH [p.title, p.body];

Источники

Связанные главы

Фреймворк выбора СУБД - Как обосновать выбор графовой базы данных относительно реляционных, документных и ключ-значение (key-value) альтернатив.
PostgreSQL: история и архитектура - Где проходит граница между реляционным моделированием и графовыми обходами и когда соединения дешевле графа.
MongoDB: документная модель, репликация и консистентность - Сравнение документного подхода и модели графа свойств для данных со сложными связями.
Инфраструктура социальной сети - Практический пример социального графа с рекомендациями, связями пользователей и графовыми обходами.