Hume AI выкатила Octave — «эмоциональную» модель синтеза речи из текстовых описаний (TTS) 🎙️. Новый уровень text-to-speech — done ✅. Голоса, пишет Tom's Guide, «пугающе похожи на человеческие». В слепом тестировании нейросеть обошла легендарный ElevenLabs. 71,6% человеков выбрали Octave за качество звука, 51,7% — за естественность. Кажется, у нас новый лидер. Присмотримся 👀.

Под капотом Octave (Omni-Capable Text and Voice Engine) — большая языковая модель (LLM) для генерации контекстно-зависимой, эмоционально окрашенной речи. Обычные TTS-движки с контекстом не очень дружат, а с эмоциями тем более. Генерируют что-то монотонное, местами выразительное, но в целом легко идентифицируемое как «ненастоящее» 🤖. Бубнят текст с бумажки с интонацией руководителя, который зачитывает приказ о сокращении штата.

Octave отличается, во-первых, тем, что она все «понимает». Контекстная зависимость предполагает, что модель схватывает содержание и смысл, прикидывая в уме: «Ага, здесь сарказм, а тут искренне» 🤔. И если в начале абзаца у вас «Доброе утро», а потом описание, как вы проспали, опоздали на автобус, облились кофе и посадили пятно на шелковой блузке — Octave поймет, что «доброе утро» было не добрым.

Правильно понимая контекст, модель насыщает его эмоциями. Octave умеет в сарказм, драматически, паниковать, огорчаться и радоваться 😭. Можно задать конкретного персонажа — мол, выдай мне пассивно-агрессивного абьюзера (ворчливого старикашку, мотивационного тренера, гоблина с акцентом кокни и т.д.). Характеристики голоса — возраст, пол, эмоциональное состояние — прописываются текстом в Voice Design 🎭.

Анонс модели был в декабре. Тогда на сайте Hume AI запостили «представляем передовую модель TTS с опцией создания личности». Нам сообщили, что платформа объединяет ресурсы собственной генеративной модели EVI с возможностями сторонних систем (Voice Engine от OpenAI, TTS Voice Design от Elevenlab и NotebookLM от Google Deepmind). Отметили, что нейронка очень чувствительна к промптам и способна реалистично воссоздавать любые наши фантазии вплоть до «мужской голос, который звучит очень хрипло, будто полощет горло горячим асфальтом». И не только сказали, но и все показали — голоса, действительно, звучат как живые 🎧.

На вход можно грузить аудиозаписи, даже самые шумные. Octave извлечет характеристики голоса и сгенерирует клон. В диалоги тоже умеет. Новостью стало то, что модель обошла в слепом тестировании ElevenLabs. 71,6% выбрали Octave за качество звука, 51,7% — за естественность, 57,7% — за точность соответствия запросу. Тест был на 120 разных промптах, от «спокойный голос терапевта» до «орущий орк средних лет».

Потестить можно на сайте и через API. Бесплатно раздали по 10 тысяч символов текста в речь в месяц (~10 аудиоминут) 🎁. Для тех, кому надо больше, есть Starter за $3 в месяц (30 тысяч символов текста в речь) и другие тарифные планы. В ближайшее время компания обещает улучшить основные возможности. В частности, расширит языковую панель 🌍. Пока модель в совершенстве владеет английским и почему-то испанским. Это не значит, что совсем не справляется с русским. Что-то выдать Octave пытается, но акцент, интонация и грамматика идут вразнос. Ждем апдейтов ⏳.