Нейросеть Whisper переводит речь в текст

Нейросеть Whisper переводит речь в текст

Одновременно с появлением революционных моделей преобразования текста в изображение с помощью нейросети, OpenAI выпустила еще одну нейросеть для транскрибации речи в текст — Whisper. Обзор именно на Whisper мы сегодня и представим. Принцип работы, системные требования, а также примеры работы нейросети Whisper представим ниже.
Русскоязычные сайты для озвучки

Нейросеть Whisper обзор

Whisper располагается на Hugging Face, имеет онлайн интерфейс. Время обработки занимает секунды. Вам не придется долго ждать. При запуске Whisper в Hugging Face обработка ввода и отображение выходных данных может занять до 9 секунд, поскольку он выполняется на процессоре. Её главной функцией является автоматическое распознавание речи (ASR), которое расшифровывает многоязычный звук. Whisper — это результат обучения нейронной сети на 680 000 часах многоязычных и многозадачных контролируемых данных, собранных из Интернета.

Какие языки поддерживает нейросеть?

В настоящее время она поддерживает 75 языков:

  1. Русский
  2. Испанский
  3. Итальянский
  4. Английский
  5. Португальский
  6. Немецкий
  7. Японский
  8. Польский
  9. Французский
  10. Каталанский
  11. Голландский
  12. Индонезийский
  13. Турецкий
  14. Малайский
  15. Украинский
  16. Шведский
  17. Вьетнамский
  18. Норвежский
  19. Финский
  20. Тайский
  21. Корейский
  22. Румынский
  23. Словацкий
  24. Тагальский
  25. Crotian
  26. Датский
  27. Чешский
  28. Арабский
  29. Болгарский
  30. Урду
  31. Эстонский
  32. Hindi
  33. Словенский
  34. Латышский
  35. Азербайджанский
  36. Сербский
  37. Иврит
  38. Литовский
  39. Персидский
  40. Валлийский
  41. Африканский
  42. Исландский
  43. Маратхи
  44. Казахский
  45. Маори
  46. Суахили
  47. Непальский
  48. Армянский
  49. Белорусский
  50. Каннадский
  51. Таджикский
  52. Occitan
  53. Лингала
  54. Мальтийский
  55. Люксембургский
  56. Хауса
  57. Яванский
  58. Пушту
  59. Узбекский
  60. Кхмерский
  61. Грузинский
  62. Телугу
  63. Малаялам
  64. Лао
  65. Панджаби
  66. Сомалийский
  67. Гуджарати
  68. Бенгальский
  69. Ассамский
  70. Монгольский
  71. Йоруба
  72. Мьянма
  73. Амхарский
  74. Шона
  75. Синдхи

Варианты и системные требования Whisper

Доступно 5 вариантов Whisper, от крошечных до больших. Чем больше параметры, тем лучше результат.

МоделиПараметрыСинтаксис для модели, доступной только для английского языкаСинтаксис для многоязычной моделиПамять графического процессора: требуется видеопамятьОтносительная скорость
Крошечный39 Mtiny.ruКрошечный~ 1 ГБ~ 32 раза
База74 Mbase.enБаза~ 1 ГБ~ 16 раз
Маленький244 Msmall.ruМаленький~ 2 ГБ~ 6 раз
Средний769 Mmedium.ruСредний~ 5 ГБ~ 2 раза
Большой1.5 BNilБольшой~ 10 ГБ~ 1x

Убедитесь, что у вас есть необходимый объем памяти графического процессора для модели, которую вы выбираете для запуска.

Как использовать Whisper бесплатно?

OpenAI сделала Whisper открытым исходным кодом в своей учетной записи на GitHub. Таким образом, любой может использоваться кодом бесплатно. Вы можете запустить код из командной строки или внутри IDE Python:

  1. Установите код Whisper
  2. Создайте аудиозапись
  3. Запустите код в среде Python
  4. Продолжайте работу из командной строки

Как установите код Whisper

Чтобы загрузить и установить код на свой компьютер, просто скопируйте и вставьте команду pip install, доступную на странице Git OpenAI.

pip установка git + https://github.com/openai/whisper.git.

Преобразование речи в текст от OpenAI Whisper

Затем вам также необходимо установить “ffmpeg”.

Для этого выполните приведенную ниже команду:

  • Для Ubuntu или Debian – sudo apt update && sudo apt install ffmpeg
  • Для macOS с использованием Homebrew (https://brew.sh /) – brew install ffmpeg
  • Для Windows с помощью Chocolatey (https://chocolatey.org /) – choco install ffmpeg

Создаём аудиозапись
Создайте или подгрузите аудиозапись, которую вы хотите расшифровать.

Запустите код в среде Python
Чтобы запустить код в вашей среде Python, просто скопируйте и вставьте код со страницы Git OpenAI.

Запустите код в среде Python

Затем измените имя аудиофайла в переменной «result», как показано на скриншоте ниже.

Whisper

После запуска кода вы сможете увидеть результат в текстовой форме.

Вход из командной строки

Если у вас нет какой-либо среды разработки Python IDE и вы хотите запустить код Whisper в командной строке, вы можете сделать это, следуя приведенной ниже инструкции.

Запустите Whisper на своем устройстве

Заключение

Нейросеть Whisper — это мощная программа для преобразования речи в текст и многоязычного перевода речи, с открытым исходным кодом. Если вы не увлекаетесь программированием и не хотите пробовать его в среде Python, вы можете просто попробовать демо от Hugging Face.

автор
Сергей Нифашев