Специалисты исследовательского подразделения T-Bank AI создали новую технику подготовки языковой модели LLM, повышающую точность ответов примерно на 15%. Эта технология основана на подходе Trust Region, помогающем преодолеть эффект чрезмерной адаптации — овероптимизации. Он возникает при обучении модели на значительных объёмах данных.
Источник фото: alphavantage.co/academy
Как это работает
Обычные ИИ-модели при долгом обучении становятся менее эффективными — например, при обучении вежливому общению могут выдавать доброжелательные, но бессмысленные ответы. Новый подход динамически обновляет «настройки» модели двумя способами:
- С помощью мягкого обновления — небольшие корректировки вносятся на каждом шаге.
- С применение жёсткого обновления — происходит полный сброс параметров через опредёленные промежутки времени.
Это помогает ИИ лучше понимать контекст и избегать ошибок.
Где пригодится
Технология уже протестирована на бенчмарках AlpacaEval 2.0 и Arena Hard. Она особенно полезна для:
- Виртуальных ассистентов.
- Медицинских и образовательных чат-ботов.
- Систем анализа текстов.
Метод легко интегрируется в существующие алгоритмы и доступен в открытой библиотеке Turbo Alignment.
«Это шаг к созданию ИИ, который сохраняет баланс между узкими задачами и общим пониманием мира», — отмечает Борис Шапошников, руководитель исследования. В будущем метод может стать основой для более адаптивных нейросетей.