Украинские исследователи провели тестирование наиболее популярных моделей искусственного интеллекта (ИИ) на задачах ВНО, однако ни одна из них не смогла преодолеть отметку в 70% правильных ответов. Об этом сообщает медиаресурс dev.ua.
Разработчики создали ZNOVision – первый многоформатный тест, оценивающий способность ИИ работать с украинским языком, образовательными материалами и национальной культурой. Тест ZNOVision включает более 4300 задач, распределенных по 13 направлениям, среди которых физика, математика, история, литература.
К тестированию привлекли шесть основных моделей ИИ: GPT4o; Claude 3.5 Sonnet; Gemini 1.5 Pro; Qwen2VL72B; Paligemma3B; PaligemmaFT. Для обработки вопросов и запуска моделей использовали облачную платформу De Novo, которая предоставила доступ к GPU-кластерам в частном облаке, сертифицированном по государственным стандартам КСЗИ.
Ни одна модель не смогла добиться даже 70% правильных ответов. Лучшие результаты показали: Gemini Pro – 67,5%; Claude 3.5 – 64,3%; Qwen2VL – 51,2%; GPT4o – 47%. Больше ошибок возникало в задачах со сложными визуально-текстовыми элементами - модели не узнавали украинские слова на изображениях, путали единицы измерения, пропускали часть формулировок.
В категории VQAUA (визуальные вопросы с украинским языком) модели показали следующие результаты: Claude – 26,7%, GPT4o – 29%, Qwen2VL – 34,4%. Это существенно ниже результатов англоязычных тестов (>60%) и свидетельствует о слабой поддержке мультимодальных возможностей для украинского языка.
Официальные данные ЗНО-2021 в Украине показали то, сколько участников успешно сдали (то есть преодолели пороговые баллы: "сдал/не сдал") предметы:
Как сообщал "Укрінформ", 24 марта 2022 года Верховная Рада приняла закон №7132, которым было отменено проведение ГНА, ВНО и единого вступительного экзамена из-за полномасштабной войны. В результате этих изменений для выпускников был введен альтернативный формат – Национальный мультипредметный тест (НМТ).