Мультимодальность пришла и в Сбер. Фирменная нейронка GigaChat научилась распознавать изображения. Разработчики взяли и вшили возможность понимать и реагировать на все, что называется общим словом «картинка». Это значит, что вместо текста можно отправить чат-боту фото, скрин, график, формулу, рукописный конспект, и он все поймет.
Напомним, что отличает GigaChat от конкурентов вроде ChatGPT – «культурный код». Модель обучали на русскоязычных материалах. Нейронка не просто умеет общаться на русском. Англоязычные модели тоже могут. Но GigaChat глубоко понимает контекст и концепции, уникальные для нашей культуры. Ответы «англоцентричных» нейронок, в основном, грамматически верные, но они не способны словить, а потом отразить те нюансы, которые делают речь аутентичной. Если добавить сюда навык работы с изображениями, становится еще интересней.
Новая фича работает так. Чат-боту можно закинуть фотку, скажем, кота. GigaChat способен провести «чек-ап» изображения и дать комментарии. Мол, это британец, развалившийся на диване. Кормить вкусно, гладить часто, убирать постоянно. Коты – это ладно. Есть задачи серьезнее. К примеру, анализ технических схем, диаграмм и таблиц. Придумать продающие описания к фото товарам. Решить задачу по фотографии из учебника. В общем, возможности открываются безграничные.
Кроме фичи по работе с картинками, в 4 раза увеличили объем данных, которые GigaChat способен принять и иметь в виду. Было 8 тысяч токенов, стало – 32. Проще говоря, если раньше на вход можно было грузить что-то вроде 15 страниц текстовых данных А4 формата, сегодня GigaChat «держит» 60.
Про конкурентоспособность скажем коротко. Западные аналоги пока могут сильно не нервничать. Да, GigaChat со своей мультимодальностью наступает на пятки, но все-таки версия выглядит привлекательно, прежде всего, для местного рынка. И не только потому, что ментально адаптирована под нас. Еще один немаловажный аргумент звучит как «Без VPN».
Войти в GigaChat можно по номеру российского телефона или по СберID. Адрес чат-бота в Telegram – https://t.me/gigachat_bot. Заходите по ссылке и жмите «Запустить». Бот в Telegram работает в любой стране. Он бесплатный. Лимитов нет. Бот умеет писать, рисовать, а после последнего обновления и работать с картинками. Для генерации изображений использует, в основном, DALL-E и Stable Diffusion. Принимает все популярные форматы, включая текстовые документы (txt), электронные таблицы (xlsx), презентации (pptx), PDF-файлы и остальные. Такие же функции у бота ВКонтакте. Есть возможность интегрировать GigaChat в приложения и бизнес-процессы через API.