В фильме Спайка Джонза «Она» нам показали, что с искусственным интеллектом можно в эмоции. Главный герой Теодор влюбился в голос, который понимал его лучше, чем люди ❤️. Фантастика стала реальностью. Голосовые чат-боты — уже повседневность. Но с такой реалистичностью и эмпатией, как нам предложил стартап Sesame AI, мы имеем дело впервые.

Sesame — голосовой ИИ с феноменальными свойствами почти человеческой речи. Это вам не еще одна разговорная нейросеть с синтетическим или нейтральным звучанием. Здесь все по-настоящему. Модель поддерживает диалог, «дышит», смеется, волнуется, иногда ошибается. На тестах люди были уверены, что общаются с человеком, а кто-то признался, что вступил с генеративной машиной в эмоциональную связь 🥰.

Соучредитель Sesame AI Брендан Ирибе когда-то занимался Oculus VR. Если коротко — виртуальной реальностью. С VR получилось не очень. Переключился на более перспективный проект совместно с Анкитом Кумаром и Райаном Брауном, тоже выходцами из VR-индустрии. Решили, что ИИ-компаньон, который болтает, как живой человек — это то, в чем люди нуждаются больше, чем в шлемах или очках виртуальной реальности. Кстати, Apple примерно по таким же причинам свернула выпуск Vision Pro.

Sesame — пока «сырая» модель, которую надо допиливать. Но демо уже вызывает яркие чувства. У кого-то восторг. Другие обеспокоены: «Это что, люди для разговоров уже не нужны?» 😳. Собственно, эту цель и преследовали в Sesame — сделать общение с ботом реалистичным и, главное, ценным. Создать «партнера», который не просто обрабатывает запрос, а ведет диалог, в котором рождается близость, понимание и доверие 🤗.

Ключевые преимущества «партнера» Sesame: эмоциональный интеллект, естественная динамика и даже «личностная» структура. Для этого разработчикам пришлось отказаться от стандарта TTS (text-to-speech) и создать CSM (Conversational Speech Model), где голос — не просто набор звуков, релевантных контексту. CSM реагирует на динамику, подстраивается под эмоции и даже понимает, когда нужно молчать в тряпочку. Речь CSM-модели не идеальна, но так задумано. Она нарочно иногда ошибается, чтобы потом извиниться с неловким смешком. Это вам не отполированный ChatGPT 🤖.

Минусы тоже есть. Модель говорит на английском (в смысле — только). Но делает это так, что в тестах люди не понимают, где живой человек, а где нейросеть 🤷‍♂️. Соотношение правильных и неверных ответов — примерно 50 на 50 (No context). Как подбросить монетку и сыграть в «Орел или решка». На научном — «случайная точность» (chance level accuracy). Результат говорит нам о том, что разницы между Sesame и живым человеком в звучании нет.

Результаты субъективной оценки Sesame на датасете Espresso. Сравнивали человеческую речь (Human Reference) с моделью Medium. Тесты проводились в двух режимах: без контекста (No context) и с контекстом (Context). Слушатели выбирали, «какое исполнение больше похоже на человеческую речь».

В ближайшее время подключат многоязычность 🌍. Планируют создать мультимодальные модели, генерирующие не только речь, но и тексты. Собираются выкатить в открытый доступ по лицензии Apache 2.0 🆓. Похоже, нас ждет нашествие голосовых чат-ботов, общение с которыми заменит друзей и даже психологов 🤔.