Содержание
Нейросеть Whisper обзор
Whisper располагается на Hugging Face, имеет онлайн интерфейс. Время обработки занимает секунды. Вам не придется долго ждать. При запуске Whisper в Hugging Face обработка ввода и отображение выходных данных может занять до 9 секунд, поскольку он выполняется на процессоре. Её главной функцией является автоматическое распознавание речи (ASR), которое расшифровывает многоязычный звук. Whisper — это результат обучения нейронной сети на 680 000 часах многоязычных и многозадачных контролируемых данных, собранных из Интернета.
Какие языки поддерживает нейросеть?
В настоящее время она поддерживает 75 языков:
- Русский
- Испанский
- Итальянский
- Английский
- Португальский
- Немецкий
- Японский
- Польский
- Французский
- Каталанский
- Голландский
- Индонезийский
- Турецкий
- Малайский
- Украинский
- Шведский
- Вьетнамский
- Норвежский
- Финский
- Тайский
- Корейский
- Румынский
- Словацкий
- Тагальский
- Crotian
- Датский
- Чешский
- Арабский
- Болгарский
- Урду
- Эстонский
- Hindi
- Словенский
- Латышский
- Азербайджанский
- Сербский
- Иврит
- Литовский
- Персидский
- Валлийский
- Африканский
- Исландский
- Маратхи
- Казахский
- Маори
- Суахили
- Непальский
- Армянский
- Белорусский
- Каннадский
- Таджикский
- Occitan
- Лингала
- Мальтийский
- Люксембургский
- Хауса
- Яванский
- Пушту
- Узбекский
- Кхмерский
- Грузинский
- Телугу
- Малаялам
- Лао
- Панджаби
- Сомалийский
- Гуджарати
- Бенгальский
- Ассамский
- Монгольский
- Йоруба
- Мьянма
- Амхарский
- Шона
- Синдхи
Варианты и системные требования Whisper
Доступно 5 вариантов Whisper, от крошечных до больших. Чем больше параметры, тем лучше результат.
Модели | Параметры | Синтаксис для модели, доступной только для английского языка | Синтаксис для многоязычной модели | Память графического процессора: требуется видеопамять | Относительная скорость |
Крошечный | 39 M | tiny.ru | Крошечный | ~ 1 ГБ | ~ 32 раза |
База | 74 M | base.en | База | ~ 1 ГБ | ~ 16 раз |
Маленький | 244 M | small.ru | Маленький | ~ 2 ГБ | ~ 6 раз |
Средний | 769 M | medium.ru | Средний | ~ 5 ГБ | ~ 2 раза |
Большой | 1.5 B | Nil | Большой | ~ 10 ГБ | ~ 1x |
Убедитесь, что у вас есть необходимый объем памяти графического процессора для модели, которую вы выбираете для запуска.
Как использовать Whisper бесплатно?
OpenAI сделала Whisper открытым исходным кодом в своей учетной записи на GitHub. Таким образом, любой может использоваться кодом бесплатно. Вы можете запустить код из командной строки или внутри IDE Python:
- Установите код Whisper
- Создайте аудиозапись
- Запустите код в среде Python
- Продолжайте работу из командной строки
Как установите код Whisper
Чтобы загрузить и установить код на свой компьютер, просто скопируйте и вставьте команду pip install, доступную на странице Git OpenAI.
pip установка git + https://github.com/openai/whisper.git.
Затем вам также необходимо установить “ffmpeg”.
Для этого выполните приведенную ниже команду:
- Для Ubuntu или Debian – sudo apt update && sudo apt install ffmpeg
- Для macOS с использованием Homebrew (https://brew.sh /) – brew install ffmpeg
- Для Windows с помощью Chocolatey (https://chocolatey.org /) – choco install ffmpeg
Создаём аудиозапись
Создайте или подгрузите аудиозапись, которую вы хотите расшифровать.
Запустите код в среде Python
Чтобы запустить код в вашей среде Python, просто скопируйте и вставьте код со страницы Git OpenAI.
Затем измените имя аудиофайла в переменной «result», как показано на скриншоте ниже.
После запуска кода вы сможете увидеть результат в текстовой форме.
Вход из командной строки
Если у вас нет какой-либо среды разработки Python IDE и вы хотите запустить код Whisper в командной строке, вы можете сделать это, следуя приведенной ниже инструкции.
Заключение
Нейросеть Whisper — это мощная программа для преобразования речи в текст и многоязычного перевода речи, с открытым исходным кодом. Если вы не увлекаетесь программированием и не хотите пробовать его в среде Python, вы можете просто попробовать демо от Hugging Face.