Во вторник прошла прямая трансляция генеральный директор OpenAI Сэм Альтман объявил о первом за год крупном обновлении функции генерации изображений ChatGPT.
Теперь в ChatGPT встроена модель GPT-4o для генерации и редактирования изображений на более высоком уровне. Всем прекрасно известно, что до этого GPT-4o, хоть и лежал в основе платформы чат-ботов на основе ИИ, работал только с текстом, но больше нет. Модель растет, ее возможности расширяются.
Как сказал Альтман на прямой трансляции, новая функция уже внедрена в ChatGPT и Sora, продукт от OpenAI для создания видео, но есть нюанс: все это — для подписчиков Pro уровня, которая все еще стоит 200$ в месяц. Но нам обещают вскоре открыть доступ к этой функции и в бесплатной версии, а также для разработчиков, использующих API.
GPT-4o пришел на замену DALL-E 3, хотя модель и «думает» немного дольше. Но это не просто так, а чтобы создавать более точные и детализированные изображения, как описывает OpenAI. GPT-4o способен не только генерировать изображения, но и редактировать готовые фото, например, людей, «дорисовывая» им элементы.
Важно обсудить, что лежало в основе обучения модели новой, совсем отличной от первичных, функции. OpenAI сообщила Wall Street Journal, что обучила GPT-4o не только на «общедоступных данных», но и на собственных данных, полученных в результате сотрудничества с такими компаниями, как Shutterstock.
Мало кто из компаний дает четкую и подробную информацию о материале, на котором обучаются модели, потому что это — конкурентное преимущество. Но это не единственная причина. Раскрытие таких данных может повлечь неприятные последствия в виде судебного иска, связанного с использованием интеллектуальной собственности. Никто ведь, чаще всего, не спрашивает разрешения у дизайнеров, фотографов и художников на использование их трудов, а стоило бы. Поэтому компании, занимающиеся разработкой генеративных ИИ, стараются лишний раз не выдавать свои секреты.
«Мы уважаем права художников в том, что касается результатов нашей работы, и у нас есть правила, которые не позволяют нам создавать изображения, напрямую имитирующие работы ныне живущих художников», — заявил Брэд Лайткап, главный операционный директор OpenAI, в интервью Journal.
Но OpenAI не такие, как некоторые другие компании, если верить их словам. У авторов есть возможность запретить использовать их работы в обучении GPT-4o. Компания также заявляет, что соблюдает запросы на запрет своим ботам-скрейперам собирать обучающие данные, в том числе изображения, с веб-сайтов. Все в духе современного запроса Кремниевой долины на безопасность пользовательских данных.
Есть подозрение, что OpenAI решились на усовершенствование модели после экспериментального вывода изображений в формате Gemini 2.0 Flash, одной из флагманских моделей Google. Но, в отличие от Gemini 2.0 Flash, у ChatGPT еще есть шанс не опозориться на весь Интернет.