Cohere for AI, стартап лаборатория на этой неделе выпустила свою мультимодальную «открытую» модель искусственного интеллекта Aya Vision, которую они нескромно назвали лучшей в сравнении с моделями такого типа. ИИ имеет широкий функционал работы с изображениями и фото, а также предоставляется бесплатный вход через WhatsApp.
С каждый днем разнообразных многофункциональных моделей, которые могут и в работе помочь, и дома , становится только больше. И чем больше их становится, тем больше они конкурируют за внимание потребителя. Одни берут 💰, другие — брендом.
Но некоммерческая исследовательская лаборатория Cohere решила взять качеством. На днях она представила новый ИИ под названием Aya Vision. Многофункциональной она названа не зря, в спектр ее возможностей входят: создание подписей к фото, перевод текста и его резюмирование (пока что на 23 основных языка). Кроме того, для повышения доступности своей технологии разработчики предоставили бесплатный доступ к Aya Vision через WhatsApp, чтобы любой исследователь в мире имел беспрепятственный доступ к умному ассистенту.
«Несмотря на значительный прогресс в области ИИ, всё ещё существует большой разрыв в эффективности моделей на разных языках, который становится ещё более заметным в мультимодальных задачах, включающих как текст, так и изображения, — написал Cohere в блоге. — Aya Vision стремится устранить этот разрыв».
На данный момент лаборатория представила публике два варианта своей модели — Aya Vision 32B и Aya Vision 8B. Из них двоих Aya Vision 32B более совершенная и, по словам разработчика, модель хоть и маленькая (относительно собратьев), да удаленькая: по некоторым показателям она обходит метавселенную Llama-3.2 90B Vision, которая в два раза больше, чем Aya Vision. Вторая модель, Aya Vision 8B, тоже не отстает: при десятикратной разнице в размерах, она все равно умудряется обогнать в некоторых вопросах намного более крупные модели.
Обе модели доступны на платформе для разработки ИИ Hugging Face по лицензии Creative Commons 4.0 с дополнением Cohere о допустимом использовании. Cohere и сами являются некоммерческой организацией, так что их разработки нельзя использовать в коммерческих целях💰❌. Но для личного пользования или, например, для науки — пожалуйста.
Aya Vision обучалась на англоязычных «набора данных», которые были переведены работниками лаборатории для того, чтобы создать синтезированные аннотации. Аннотации, они же метки и теги, помогают модели обучаться, т.к. они влияют на восприятие и интерпретацию новой информации. Обозначения вокруг объектов на фото, подписи, относящиеся к людям, местам или предметам на изображении — все это формы аннотаций для ИИ.
В целом стоит отметить, что это новый тренд — обучать модели на основе сгенерированных другими ИИ аннотаций. Cohere в этом смысле не первопроходцы. Да, у метода есть свои недостатки, как и любого другого, но его все активнее применяют в индустрии. Те же OpenAI все чаще прибегают к этому способу обучения по мере того, как колодец реальных данных иссякает. По оценкам исследовательской компании Gartner, 60% данных, которые задействовали в разработке моделей и аналитике в общем, были созданы искусственно, т.е. синтезированы ИИ.
Лаборатория объясняет выбор метода экономией времени и ресурсов в общем. При этом конкурентоспособность свою они сохранили, умно.
«Это демонстрирует наше пристальное внимание к эффективности и [позволяет] делать больше, используя меньше вычислительных ресурсов, — написала Cohere в своём блоге. — Это также позволяет оказывать более широкую поддержку исследовательскому сообществу, у которого зачастую более ограниченный доступ к вычислительным ресурсам».
Но не только разработкой Aya Vision были заняты в лаборатории Cohere 🧪. Кроме новенькой модели они выпустили еще и новенький бенчмарк — AyaVisionBench. Целью этого бенчмарк является проверка способностей ИИ к анализу изображений. Например, там можно найти задания на сопоставление двух фото или преобразование скриншота в код.
Сегодня индустрия ИИ переживает переломный момент, и связан он с кризисом оценки 📉. У нас полно тестов, которые выдают совокупные баллы, плохо коррелирующие с эффективностью при выполнении задач, важных для большинства пользователей ИИ. Простыми словами бенчмарки не проверяют действительно важные навыки ИИ, необходимые большинству пользователей. Cohere представили свое решение данной проблемы в виде AyaVisionBench. Это маленький шаг для решения большой насущной дилеммы, и разработчики выражают надежду на то, что в будущем ситуация начнет меняться. Именно для этого их бенчмарк был выложен в общий доступ — чтобы помочь таким же исследователям, как они сами🧑🔬:
«Набор данных служит надежным эталоном для оценки моделей визуального языка в многоязычных и реальных условиях», — написали исследователи Cohere в посте на Hugging Face. «Мы делаем этот набор оценок доступным для исследовательского сообщества, чтобы продвигать многоязычные мультимодальные оценки».