Тем, кому мало speech-to-text генераторов, ElevenLabs подвезли нейронку Scribe. Система распознавания речи (ASR) работает с 99 языками. Русский есть. Выкатили без пафоса и громких тизеров. На фоне стартапов, которые анонсируют нейросети примерно за год до того, как те начинают что-нибудь генерировать, презентация Scribe выглядит скромно. Просто показали бенчмарки — да, мол, самая лучшая 🏆. По точности уделывает Whisper, Deepgram и Gemini. Предлагают попробовать относительно дешево — $0,40 за аудио час.

Scribe понимает как очевидные языки вроде английского или испанского, так и экзотику — баскский, тамильский и распространенный на юго-западе Индии малаялам 🌏. Точность распознавания (accuracy) неоднородная, но главное, что для русского — «high». Максимум 5-10% ошибок, что меньше, чем, например, у ближайшего конкурента Whisper.

Scribe не просто переводит речь в текст как какой-нибудь speech-to-text на минималках. Заявлено, что система распознает говорящих и разделяет аудиофайл на текстовые сегменты «по ролям» 🎭. Этот технический процесс обработки называется «диаризацией». Кроме этого, Scribe маркирует события, используя тайм-коды на уровне слов, и отмечает звуковые эффекты типа «аплодисменты» 👏, «смех на галерке», «протяжный вздох». Не зря под капотом — искусственный интеллект, который и не такое умеет.

На бенчмарках (FLEURS, Common Voice) Scribe обошла передовые модели сегмента — Whisper Large V3, Gemini 2.0 Flash и Deepgram Nova-3 📊. Продемонстрировала самый низкий уровень ошибок на любом из поддерживаемых языков (включая малаялам), а в английском и итальянском оказалась филологическим гением — 96,7% и 98,7% точности соответственно. Показатели конкурентов не дотягивают до Scribe на добрых 20%. А это, на минуточку, целая пропасть. Примерно как между тем, кто просто «разбирается в вине», и сомелье.

Удовольствие не бесплатное. $0,40 за аудио-час — не самый дешевый прайс, но подъемно. Не так больно, как могло бы быть. За эти деньги получаете максимальную точность 🎯, высокую скорость и оперативный саппорт. Попробовать можно на сайте — заводите аккаунт, загружаете файлы и получаете транскрипции. Для разработчиков есть API. Компания отмечает, что скоро подвезут расшифровку речи в режиме реального времени. Это значит, что Scribe можно будет использовать для транскрибации во время встреч, а пока — только файлы 📁.

ElevenLabs недавно подняли $180 миллионов в раунде финансирования 💵. Вместо того, чтобы вбросить в уже состоявшиеся проекты с гарантированной прибылью вроде синтеза голосов (text-to-speech), рискнули создать свою первую автономную speech-to-text. Решили рвануть в другую сторону — не звук из текста, а наоборот. ASR, как говорится, много не бывает. Хотя с таким количеством «распознавалок» скоро придется выпускать нейросеть, которая будет разбирать их между собой.