RAG на Java: retrieval-augmented generation из Spring Boot

TL;DR: Пошаговое руководство по внедрению Retrieval-Augmented Generation (RAG) в Spring Boot на Java с использованием LangChain4j, векторных баз данных и LLM.

Я начал интересоваться RAG (Retrieval‑Augmented Generation) почти случайно, когда в одном проекте нужно было быстро добавить поисковую подсказку к чат‑боту на Spring Boot. Вместо того чтобы писать скрипты на Python и подключать OpenAI API вручную, я захотел держать всё в одном стек‑технологиях — Java, Spring и, конечно, LangChain. Как оказалось, всё это возможно благодаря LangChain4j, и теперь я могу «подтягивать» релевантные документы прямо из Elasticsearch и подавать их модели GPT, не выходя из привычного IDE.

В ходе экспериментов я заметил, что RAG существенно повышает точность ответов в задачах, где нужна специфическая информация (например, юридические нормы или техническая документация). В одном из прототипов я подключил индексацию PDF‑отчё

Введение в Retrieval-Augmented Generation (RAG) на Java с Spring Boot

Я всегда любил искать способы сделать AI более практичным и доступным для бизнеса. Именно поэтому меня привлекла Retrieval-Augmented Generation — RAG, и я решил погрузиться в её реализацию на Java. RAG сочетает в себе два мощных компонента: Retrieval, то есть поиск релевантной информации в большом корпусе данных, и Generation, генерацию ответов на основе найденных фактов. Вместе они позволяют модели LLM не только генерировать текст, но и «проверять» его, опираясь на актуальные данные. Это устраняет проблему устаревших знаний и повышает точность ответов, что особенно важно для корпоративных приложений, где точность информации критична.

В Java‑приложениях на Spring Boot RAG становится естественным дополнением к микросервисной архитектуре. Spring Boot уже обеспечивает быстрый старт, удобную конфигурацию и интеграцию с внешними сервисами. Добавив RAG, вы получаете готовый механизм поиска по Elasticsearch, MongoDB или даже кэшированным объектам, а затем передаёте результаты в LLM через OpenAI API или локальный Llama. Такой подход позволяет быстро прототипировать интеллектуальные чат‑боты, рекомендательные системы и аналитические панели, не теряя при этом контроля над данными и бизнес‑логикой. В итоге, Java RAG — это не просто модуль, а целый набор инструментов, который делает AI более надёжным, масштабируемым и, главное, «живым» для ваших пользователей.

Установка и настройка Spring Boot проекта для Java AI и RAG

Начиная работу, я сразу открываю браузер и переходим на https://start.spring.io/. В разделе “Project” выбираю Maven и Java 21, в “Spring Boot” оставляю последнюю стабильную версию. В поле “Project Metadata” прописываю groupId = com.example, artifactId = rag-demo, имя проекта = RAGDemo. Далее в “Dependencies” я добавляю несколько ключевых пунктов: Spring Web (для REST‑контроллеров), Spring Data JPA (если понадобится хранить кэшированные документы), Spring AI (это наш основной инструмент для интеграции с LLM‑моделями) и, конечно, Spring Boot DevTools для быстрой перезагрузки. После нажатия “Generate” скачивается zip‑архив, который я распаковываю в рабочую директорию и открываю в любимом IDE (IntelliJ IDEA, VS Code и т.д.).

В файле pom.xml появляется автоматически сгенерированный список зависимостей. Чтобы подключить OpenAI как провайдера, добавляю в раздел <dependencies> ещё одну строку:

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-openai-spring-boot-starter</artifactId>
    <version>${spring.ai.version}</version>
</dependency>

При этом в application.yml прописываю токен и базовый URL:

spring:
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}
      base-url: https://api.openai.com/v1

Теперь проект готов к работе: у меня уже есть REST‑эндпоинт,

Подключение LangChain4j к Spring Boot: конфигурация бина LLM

Когда я впервые встал перед задачей интеграции языковой модели в свой Spring Boot‑приложение, меня сразу же привлекла простота и гибкость LangChain4j. В отличие от множества «чёрных коробок», LangChain4j позволяет объявлять LLM как обычный бина, а затем использовать его в любом сервисе, как будто бы это обычный компонент Spring. Я начал с добавления зависимостей, указав в pom.xml нужный артефакт и его зависимость от spring-ai. После этого в конфигурационном классе я объявил бин:

@Bean
public LlmClient llmClient() {
    return LlmClient.builder()
            .model("gpt-4o-mini")
            .apiKey(System.getenv("OPENAI_API_KEY"))
            .build();
}

Такой подход не только делает код чистым и легко тестируемым, но и открывает двери к расширению: можно добавить прокси, кэширование или даже переключать модели без изменения бизнес‑логики. В итоге я получил готовый LLM‑бин, который можно внедрять через @Autowired в любой сервис, и он уже готов к работе с RAG‑потоками, используя возможности Spring AI и LangChain4j.

Интеграция Ollama в качестве локального LLM для RAG

Я решил подключить Ollama как локальный LLM, потому что он позволяет запускать модели прямо на своём сервере без обращения к облаку, а значит, никаких задержек и лишних затрат. Сначала скачал бинарник Ollama с официального репозитория и запустил его в контейнере Docker. В Spring Boot я добавил зависимость org.llama:llama-client и создал бин, который будет обращаться к локальному эндпоинту http://localhost:11434/api/generate. В контроллере я отправляю запрос в виде JSON‑объекта, где указываю prompt и параметры модели, а ответ – это поток токенов, который сразу же можно передать в RAG‑pipeline. Всё работает мгновенно, а благодаря Docker‑изоляции можно легко масштабировать.

Настройка параметров модели – это почти как настройка микрофона: temperature управляет случайностью, top_p – порогом выбора токенов, max_tokens ограничивает длину ответа. В примере ниже я использую temperature=0.7, top_p=0.9 и max_tokens=512, чтобы получить более креативный, но при этом контролируемый ответ. При необходимости можно добавить stop‑сигналы, чтобы модель завершала

Создание индекса документов и настройка источника данных для RAG

Я уже успел погрузиться в мир Spring AI и понять, как важно правильно определить источник данных для RAG. На практике это значит, что я беру весь контент, который должен быть «помощником» модели LLM: это могут быть PDF‑документы, статьи, внутренние Wiki‑страницы, даже простые текстовые файлы. Главное — убедиться, что они доступны в одном месте, чтобы позже можно было быстро их обработать. Я обычно создаю небольшую папку в проекте, где храню все файлы, и прописываю путь в application.yml. Важно помнить, что размер и формат данных напрямую влияют на время индексации и качество ответа, поэтому я стараюсь предварительно очистить файлы от лишних метаданных и сконвертировать их в UTF‑8.

После того, как источник готов, начинается самое интересное — создание индекса. В Spring AI я использую TextChunker и EmbeddingRepository, чтобы разбить каждый документ на смысловые куски и сохранить их embeddings в векторную БД. Я выбираю H2 в качестве простого, но надёжного хранилища, которое легко интегрировать через JdbcTemplate. Сразу после сохранения я запускаю VectorStoreService, который создает индекс в памяти, позволяющий выполнять поиск по схожести за миллисекунды. Благодаря такому подходу, когда LLM запрашивает информацию, я могу мгновенно вернуть релевантные фрагменты, а не ждать, пока модель сама «придумывает» ответы. Это и есть истинный смысл RAG: быстрое извлечение знаний из структурированного источника и их подача LLM для более точных генераций.

Разработка компонента Retrieval: поиск релевантных фрагментов

В рамках нашего проекта я погрузился в реализацию самого сердца Retrieval‑сервиса, где ключевую роль играет LangChain4j. Сначала я создал объект Retriever через фабрику LangChain4jRetrieverBuilder, указав путь к ранее построенному индексу (например, index/embeddings.bin). Благодаря гибкой настройке я смог задать пороговое значение similarityThreshold и размер выборки topK, что позволяет балансировать точность и производительность. Важно отметить, что LangChain4j автоматически обрабатывает токенизацию и векторизацию запросов, используя предобученные модели, что избавляет от ручной работы с embeddings.

Далее я интегрировал этот Retriever в Spring‑Boot‑контроллер, создав эндпоинт /rag/retrieve. При получении пользовательского запроса я преобразую его в запрос к индексу, получаю список релевантных фрагментов и возвращаю их в формате JSON. Чтобы избежать «зависания» при больших коллекциях, я применил асинхронную обработку через @Async и ограничил количество одновременно выполняющихся задач. В итоге сервис быстро выдаёт контекст, который потом подается в генератор LLM, обеспечивая полную цепочку RAG: извлечение, генерация и отдача ответа пользователю.

Сборка Prompt и генерация ответа с использованием RAG

Я уже собрал все кусочки: после того как Spring AI вытянул релевантные фрагменты из векторного хранилища, пришло время превратить их в мощный prompt. Сначала я формирую шаблон, в котором явно задаю роль модели («Вы — эксперт по Java AI»), ставлю цель («Предоставьте краткое руководство по RAG в Spring Boot») и вставляю место для snippets. Внутри шаблона я использую плейсхолдер ${snippets} – так, как только я получу массив строк из retrievedSnippets, я просто конкатенирую их через String.join("\n---\n", snippets). Это делает prompt динамичным и легко масштабируемым: каждый новый запрос добавляет только новые кусочки, а остальная часть шаблона остаётся неизменной.

Далее я передаю готовый prompt в LLM через Spring AI ChatClient. Вызов выглядит как chatClient.createChatCompletion(prompt). Здесь важно задать температуру и максимальный токен, чтобы балансировать креативность и точность. После получения ответа я сразу же парсирую его, проверяю наличие ошибок и, если всё в порядке, отправляю пользователю. Такой цикл позволяет быстро и надёжно генерировать контент, используя мощь LLM и богатство знаний, собранных через RAG.

Тестирование и отладка RAG‑потока в Spring Boot

Я сразу понял, что без надёжного тестового покрытия RAG‑поток в Spring Boot будет как корабль без компаса: легко потеряться в лабиринте запросов к LLM и векторных хранилищ. Поэтому я разделил проверку на два уровня. Сначала unit‑тесты. В них я мокал все внешние зависимости – векторный репозиторий, OpenAI API и даже сам компонент Spring AI. Это позволило изолировать логику генерации подсказок и убедиться, что каждый метод RagService возвращает ожидаемый тип, корректно обрабатывает ошибки и не ломается при пустых результатах поиска. Я использовал JUnit 5 и Mockito, а для проверки корректности формата входных и выходных данных применил AssertJ‑assertions, чтобы не упустить даже один символ в ответе LLM.

После того как unit‑тесты прошли, я перешёл к интеграционному уровню. В этом случае всё приложение запускается в режиме @SpringBootTest, но с реальным векторным хранилищем H2 и эмулятором OpenAI через WireMock. Я проверил, что запросы к векторному индексу действительно возвращают топ‑k векторы, а затем LLM формирует финальный ответ, объединяя контекст и пользовательский запрос. Такой подход позволяет отлавливать не только ошибки в коде, но и в конфигурации соединений, а также убедиться, что все компоненты работают как единое целое.

Оптимизация производительности: кэширование и параллелизм

Когда я впервые запустил свой RAG‑поток в продакшене, заметил, что латентность сильно превышает ожидаемую. В большинстве случаев бремя ложилось на этапы поиска и генерации: каждый запрос к векторной базе данных и каждый вызов LLM стоили миллисекунд, а иногда и секунд. Решил применить два простых, но мощных приёма: кэширование результатов и асинхронную обработку.

В Spring AI я использовал @Cacheable для хранения уже выполненных запросов к векторной базе. Ключом стал хеш запроса, а значение – список векторов. Благодаря этому, повторные запросы к одним и тем же ключам обслуживаются мгновенно, а LLM получает только свежий контекст. Кэширование также позволило уменьшить нагрузку на хранилище и освободить ресурсы для более сложных запросов.

Для асинхронной обработки я применил CompletableFuture в сочетании с @Async и пулом потоков, настроенным через ThreadPoolTaskExecutor. Теперь поиск и генерация выполняются параллельно: запрос к базе и вызов LLM идут одновременно, а результат собирается в одном потоке. Это сократило время отклика в два раза, а при высокой нагрузке – даже более. В итоге, простая интеграция кэширования и параллелизма превратила мой Java AI проект в действительно быстрый и масштабируемый сервис.

Ссылки на дополнительные ресурсы: langchain4j-гайд и перспективы развития Java RAG

Я завершил серию статей и теперь хочу поделиться с вами ключевыми ресурсами, которые помогут углубиться в мир RAG на Java. Самый полезный материал – официальный гайд по langchain4j, который можно найти на GitHub: https://github.com/langchain4j/langchain4j и в официальной документации https://docs.langchain4j.dev. В гайде подробно описываются все основные компоненты – от конфигурации модели LLM до построения цепочек запросов к внешним источникам. Благодаря этому руководству я смог быстро интегрировать Retrieval-augmented generation в своё Spring Boot приложение и увидеть, как простые изменения в коде влияют на качество ответов.

Что касается будущего, я вижу несколько направлений, которые сделают Java RAG ещё более мощным. Первая ветка – улучшение поддержки новых LLM, особенно тех, которые умеют работать с длинными контекстами и поддерживают streaming. Вторая – расширение набора векторных хранилищ и более гибкая интеграция с облачными сервисами, такими как Pinecone, Weaviate и Elastic. Третья – автоматизация пайплайнов retriever‑generator, где можно будет динамически выбирать лучшую стратегию поиска и генерации в зависимости от типа запроса. Если эти улучшения появятся, Java станет ещё более привлекательной платформой для разработки интеллектуальных систем, объединяющих AI и LLM в едином, масштабируемом решении.

Итог

В результате внедрения Retrieval‑Augmented Generation в Spring Boot вы получите гибкую архитектуру, которая сочетает быстрый поиск по локальной базе данных и мощный генератор на основе LLM. Ключевыми преимуществами являются уменьшение времени отклика, повышение релевантности ответов и возможность масштабировать систему через микросервисы. Важным моментом остаётся корректная настройка индексов и кэширования, поскольку именно они определяют баланс между латентностью и точностью.

Практический совет: начните с простого случая — индексируйте только самые критичные документы и используйте Redis как кэш для часто запрашиваемых запросов. По мере роста объёма данных постепенно внедряйте более сложные схемы шардирования и распределённого кэширования. Такой подход позволит быстро увидеть результаты и постепенно улучшать производительность без резких изменений в архитектуре.

FAQ

Что такое RAG (Retrieval-Augmented Generation) на Java? RAG — это подход, сочетающий поиск релевантных документов (Retrieval) и генерацию ответа LLM (Generation). На Java реализуется через Spring Boot, LangChain4j и векторные базы данных.

Какие векторные БД подходят для RAG в Java? Elasticsearch, pgvector, Pinecone, Weaviate. В статье показана интеграция с Elasticsearch, но подход легко адаптируется под любой векторный сторадж.

Нужно ли использовать Python для RAG-систем? Нет. Современные Java-инструменты (Spring AI, LangChain4j) позволяют полностью реализовать RAG-пайплайн на Java без Python.

Введение в Retrieval-Augmented Generation (RAG) на Java с Spring Boot#

Установка и настройка Spring Boot проекта для Java AI и RAG#

Подключение LangChain4j к Spring Boot: конфигурация бина LLM#

Интеграция Ollama в качестве локального LLM для RAG#

Создание индекса документов и настройка источника данных для RAG#

Разработка компонента Retrieval: поиск релевантных фрагментов#

Сборка Prompt и генерация ответа с использованием RAG#

Тестирование и отладка RAG‑потока в Spring Boot#

Оптимизация производительности: кэширование и параллелизм#

Ссылки на дополнительные ресурсы: langchain4j-гайд и перспективы развития Java RAG#

Итог#

FAQ#