Нейросеть Whisper переводит речь в текст

Одновременно с появлением революционных моделей преобразования текста в изображение с помощью нейросети, OpenAI выпустила еще одну нейросеть для транскрибации речи в текст — Whisper. Обзор именно на Whisper мы сегодня и представим. Принцип работы, системные требования, а также примеры работы нейросети Whisper представим ниже.

Нейросеть Whisper обзор

Whisper располагается на Hugging Face, имеет онлайн интерфейс. Время обработки занимает секунды. Вам не придется долго ждать. При запуске Whisper в Hugging Face обработка ввода и отображение выходных данных может занять до 9 секунд, поскольку он выполняется на процессоре. Её главной функцией является автоматическое распознавание речи (ASR), которое расшифровывает многоязычный звук. Whisper — это результат обучения нейронной сети на 680 000 часах многоязычных и многозадачных контролируемых данных, собранных из Интернета.

Какие языки поддерживает нейросеть?

В настоящее время она поддерживает 75 языков:

Русский
Испанский
Итальянский
Английский
Португальский
Немецкий
Японский
Польский
Французский
Каталанский
Голландский
Индонезийский
Турецкий
Малайский
Украинский
Шведский
Вьетнамский
Норвежский
Финский
Тайский
Корейский
Румынский
Словацкий
Тагальский
Crotian
Датский
Чешский
Арабский
Болгарский
Урду
Эстонский
Hindi
Словенский
Латышский
Азербайджанский
Сербский
Иврит
Литовский
Персидский
Валлийский
Африканский
Исландский
Маратхи
Казахский
Маори
Суахили
Непальский
Армянский
Белорусский
Каннадский
Таджикский
Occitan
Лингала
Мальтийский
Люксембургский
Хауса
Яванский
Пушту
Узбекский
Кхмерский
Грузинский
Телугу
Малаялам
Лао
Панджаби
Сомалийский
Гуджарати
Бенгальский
Ассамский
Монгольский
Йоруба
Мьянма
Амхарский
Шона
Синдхи

Варианты и системные требования Whisper

Доступно 5 вариантов Whisper, от крошечных до больших. Чем больше параметры, тем лучше результат.

Модели	Параметры	Синтаксис для модели, доступной только для английского языка	Память графического процессора: требуется видеопамять	Относительная скорость
Крошечный	39 M	tiny.ru	~ 1 ГБ	~ 32 раза
База	74 M	base.en	~ 1 ГБ	~ 16 раз
Маленький	244 M	small.ru	~ 2 ГБ	~ 6 раз
Средний	769 M	medium.ru	~ 5 ГБ	~ 2 раза
Большой	1.5 B	Nil	~ 10 ГБ	~ 1x

Убедитесь, что у вас есть необходимый объем памяти графического процессора для модели, которую вы выбираете для запуска.

Как использовать Whisper бесплатно?

OpenAI сделала Whisper открытым исходным кодом в своей учетной записи на GitHub. Таким образом, любой может использоваться кодом бесплатно. Вы можете запустить код из командной строки или внутри IDE Python:

Установите код Whisper
Создайте аудиозапись
Запустите код в среде Python
Продолжайте работу из командной строки

Как установите код Whisper

Чтобы загрузить и установить код на свой компьютер, просто скопируйте и вставьте команду pip install, доступную на странице Git OpenAI.

pip установка git + https://github.com/openai/whisper.git.

Затем вам также необходимо установить “ffmpeg”.

Для этого выполните приведенную ниже команду:

Для Ubuntu или Debian – sudo apt update && sudo apt install ffmpeg
Для macOS с использованием Homebrew (https://brew.sh /) – brew install ffmpeg
Для Windows с помощью Chocolatey (https://chocolatey.org /) – choco install ffmpeg

Создаём аудиозапись

Создайте или подгрузите аудиозапись, которую вы хотите расшифровать.

Запустите код в среде Python

Чтобы запустить код в вашей среде Python, просто скопируйте и вставьте код со страницы Git OpenAI.

Затем измените имя аудиофайла в переменной «result», как показано на скриншоте ниже.

После запуска кода вы сможете увидеть результат в текстовой форме.

Вход из командной строки

Если у вас нет какой-либо среды разработки Python IDE и вы хотите запустить код Whisper в командной строке, вы можете сделать это, следуя приведенной ниже инструкции.

Заключение

Нейросеть Whisper — это мощная программа для преобразования речи в текст и многоязычного перевода речи, с открытым исходным кодом. Если вы не увлекаетесь программированием и не хотите пробовать его в среде Python, вы можете просто попробовать демо от Hugging Face.

Категории сервисов