Специалисты исследовательского подразделения T-Bank AI создали новую технику подготовки языковой модели LLM, повышающую точность ответов примерно на 15%. Эта технология основана на подходе Trust Region, помогающем преодолеть эффект чрезмерной адаптации — овероптимизации. Он возникает при обучении модели на значительных объёмах данных.

Источник фото: alphavantage.co/academy

Как это работает

Обычные ИИ-модели при долгом обучении становятся менее эффективными — например, при обучении вежливому общению могут выдавать доброжелательные, но бессмысленные ответы. Новый подход динамически обновляет «настройки» модели двумя способами:

  • С помощью мягкого обновления — небольшие корректировки вносятся на каждом шаге.
  • С применение жёсткого обновления — происходит полный сброс параметров через опредёленные промежутки времени.

Это помогает ИИ лучше понимать контекст и избегать ошибок.

Где пригодится

Технология уже протестирована на бенчмарках AlpacaEval 2.0 и Arena Hard. Она особенно полезна для:

  • Виртуальных ассистентов.
  • Медицинских и образовательных чат-ботов.
  • Систем анализа текстов.

Метод легко интегрируется в существующие алгоритмы и доступен в открытой библиотеке Turbo Alignment.

«Это шаг к созданию ИИ, который сохраняет баланс между узкими задачами и общим пониманием мира», — отмечает Борис Шапошников, руководитель исследования. В будущем метод может стать основой для более адаптивных нейросетей.