Одновременно с появлением революционных моделей преобразования текста в изображение с помощью нейросети, OpenAI выпустила еще одну нейросеть для транскрибации речи в текст — Whisper. Обзор именно на Whisper мы сегодня и представим. Принцип работы, системные требования, а также примеры работы нейросети Whisper представим ниже.

Нейросеть Whisper обзор

Whisper располагается на Hugging Face, имеет онлайн интерфейс. Время обработки занимает секунды. Вам не придется долго ждать. При запуске Whisper в Hugging Face обработка ввода и отображение выходных данных может занять до 9 секунд, поскольку он выполняется на процессоре. Её главной функцией является автоматическое распознавание речи (ASR), которое расшифровывает многоязычный звук. Whisper — это результат обучения нейронной сети на 680 000 часах многоязычных и многозадачных контролируемых данных, собранных из Интернета.

Какие языки поддерживает нейросеть?

В настоящее время она поддерживает 75 языков:

  1. Русский
  2. Испанский
  3. Итальянский
  4. Английский
  5. Португальский
  6. Немецкий
  7. Японский
  8. Польский
  9. Французский
  10. Каталанский
  11. Голландский
  12. Индонезийский
  13. Турецкий
  14. Малайский
  15. Украинский
  16. Шведский
  17. Вьетнамский
  18. Норвежский
  19. Финский
  20. Тайский
  21. Корейский
  22. Румынский
  23. Словацкий
  24. Тагальский
  25. Crotian
  26. Датский
  27. Чешский
  28. Арабский
  29. Болгарский
  30. Урду
  31. Эстонский
  32. Hindi
  33. Словенский
  34. Латышский
  35. Азербайджанский
  36. Сербский
  37. Иврит
  38. Литовский
  39. Персидский
  40. Валлийский
  41. Африканский
  42. Исландский
  43. Маратхи
  44. Казахский
  45. Маори
  46. Суахили
  47. Непальский
  48. Армянский
  49. Белорусский
  50. Каннадский
  51. Таджикский
  52. Occitan
  53. Лингала
  54. Мальтийский
  55. Люксембургский
  56. Хауса
  57. Яванский
  58. Пушту
  59. Узбекский
  60. Кхмерский
  61. Грузинский
  62. Телугу
  63. Малаялам
  64. Лао
  65. Панджаби
  66. Сомалийский
  67. Гуджарати
  68. Бенгальский
  69. Ассамский
  70. Монгольский
  71. Йоруба
  72. Мьянма
  73. Амхарский
  74. Шона
  75. Синдхи

Варианты и системные требования Whisper

Доступно 5 вариантов Whisper, от крошечных до больших. Чем больше параметры, тем лучше результат.

Модели Параметры Синтаксис для модели, доступной только для английского языка Память графического процессора: требуется видеопамять Относительная скорость
Крошечный 39 M tiny.ru ~ 1 ГБ ~ 32 раза
База 74 M base.en ~ 1 ГБ ~ 16 раз
Маленький 244 M small.ru ~ 2 ГБ ~ 6 раз
Средний 769 M medium.ru ~ 5 ГБ ~ 2 раза
Большой 1.5 B Nil ~ 10 ГБ ~ 1x

Убедитесь, что у вас есть необходимый объем памяти графического процессора для модели, которую вы выбираете для запуска.

Как использовать Whisper бесплатно?

OpenAI сделала Whisper открытым исходным кодом в своей учетной записи на GitHub. Таким образом, любой может использоваться кодом бесплатно. Вы можете запустить код из командной строки или внутри IDE Python:

  1. Установите код Whisper
  2. Создайте аудиозапись
  3. Запустите код в среде Python
  4. Продолжайте работу из командной строки

Как установите код Whisper

Чтобы загрузить и установить код на свой компьютер, просто скопируйте и вставьте команду pip install, доступную на странице Git OpenAI.

pip установка git + https://github.com/openai/whisper.git.

Затем вам также необходимо установить “ffmpeg”.

Для этого выполните приведенную ниже команду:

  • Для Ubuntu или Debian – sudo apt update && sudo apt install ffmpeg
  • Для macOS с использованием Homebrew (https://brew.sh /) – brew install ffmpeg
  • Для Windows с помощью Chocolatey (https://chocolatey.org /) – choco install ffmpeg

Создаём аудиозапись

Создайте или подгрузите аудиозапись, которую вы хотите расшифровать.

Запустите код в среде Python

Чтобы запустить код в вашей среде Python, просто скопируйте и вставьте код со страницы Git OpenAI.

Затем измените имя аудиофайла в переменной «result», как показано на скриншоте ниже.

После запуска кода вы сможете увидеть результат в текстовой форме.

Вход из командной строки

Если у вас нет какой-либо среды разработки Python IDE и вы хотите запустить код Whisper в командной строке, вы можете сделать это, следуя приведенной ниже инструкции.

Заключение

Нейросеть Whisper — это мощная программа для преобразования речи в текст и многоязычного перевода речи, с открытым исходным кодом. Если вы не увлекаетесь программированием и не хотите пробовать его в среде Python, вы можете просто попробовать демо от Hugging Face.