Французская компания Mistral AI представила на днях свой новый API распознавания текста, и он оказался беспрецедентно точен в распознавании документов как текстового формата, так и таблиц и изображений.
Точное распознавание текста стало для современных ИИ-разработчиков новой целью в обработке документов, в крайнем случае, в этом абсолютно уверен Mistral AI. Их новый API как раз направлен на решение этой задачи, но одним текстом они не ограничились. Модель теперь может работать еще с такими форматами, как: мультимедийные файлы, таблицы и математические уравнения. ИИ может даже извлечь сложную инфографику из документа и оцифровать ее. И все это — без потери точности!
По показателям, собранным после прохождения бенчмарков, Mistral AI превосходит всех своих конкурентов: с точностью 94,89% система обходит Google Document AI (83,42%), Azure OCR (89,52%) и различные модели Gemini от Google.
Mistral AI отличился от остальных тем, что ему чужд языковой барьер. Он одинаково хорош в распознавании всех языков. По данным Mistral AI, его OCR API обеспечивает точность распознавания текста на 99,02% на разных языках, превосходя Google Document AI (95,88%) и Azure OCR (97,31%). Но он не просто сверхточно распознает текст: суть еще и в том, как быстро он это делает. За минуту, вдумайтесь, он может обработать до 2000 страниц текста на одном вычислительном узле. Это стало возможно благодаря сравнительно легкой архитектуре модели. Его цена составляет 1000 страниц за доллар, а при пакетной обработке количество страниц за тот же доллар удваивается.
Сами Mistral предоставили топ направлений, где их ИИ будет показывать себя максимально эффективно:
- оцифровка научных работ в исследовательских организациях;
- архивы, которым нужно сохранять исторические документы;
- отделы работы с клиентами, чтобы поддерживать актуальность своих баз данных.
Mistral добавили еще одну интересную функцию — "документ в виде запроса". Она позволяет напрямую использовать документы в качестве инструкций ИИ. Для наглядности приведем пример: контракт может выступать в роли подсказки, а модель уже сама определит необходимые данные, такие как стороны контракта, сроки или платежи. На выходе вы получите всю информацию в четко структурированном виде. Mistral OCR раскладывает всю информацию по полочкам и представляет ее, например, в формате JSON, чтобы далее последующие системы или агенты искусственного распознавания текста могли использовать ее в качестве своей базы.
Есть организации, которые предъявляют высокие требования к безопасности. О них Mistral тоже позаботились и предложили вариант самостоятельного хостинга. API доступен на платформе разработчика "la Plateforme", а в будущем разработчик планирует сделать доступ через облачных и логических партнеров.
Все больше разнообразных механических задач мы передаем ИИ. Теперь он может за нас структурировать огромные базы текстовых данных структурировать и представить в адекватном виде. В правильных руках ИИ становится незаменимым инструменты повышения эффективности работы. Надеемся, таким мультитулом искусственный интеллект и будет для людей в будущем.