Завантажити ще

ШІ-експеримент - чат GPT не зміг скласти українське ЗНО

ШІ-експеримент - чат GPT не зміг скласти українське ЗНО
Фото: Riekus з сайту Pixabay

Українські дослідники провели тестування найпопулярніших моделей штучного інтелекту (ШІ) на завданнях ЗНО, проте жодна з них не змогла подолати позначку в 70% правильних відповідей. Про це повідомляє медіаресурс dev.ua, посилаючись на результати дослідження.

Розробники створили ZNOVision - перший багатоформатний тест, що оцінює здатність ШІ працювати з українською мовою, освітніми матеріалами та національною культурою. Тест ZNOVision містить понад 4300 завдань, розподілених за 13 напрямками, серед яких фізика, математика, історія, література. 

До тестування залучили шість основних моделей ШІ: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, PaligemmaFT. Для обробки питань і запуску моделей використовували хмарну платформу De Novo, яка надала доступ до GPU-кластерів у приватній хмарі, сертифікованій за державними стандартами КСЗІ.

Жодна модель не змогла досягти 70% правильних відповідей. Найкращі результати показали: Gemini Pro - 67,5%, Claude 3.5 - 64,3%, Qwen2VL - 51,2%, GPT4o - 47%. Найбільше помилок виникало в завданнях зі складними візуально-текстовими елементами: моделі не впізнавали українські слова на зображеннях, плутали одиниці виміру, пропускали частину формулювань.

У категорії VQAUA (візуальні запитання з українською мовою) моделі показали такі показники: Claude - 26,7%, GPT4o - 29%, Qwen2VL - 34,4%. Це суттєво нижче від результатів англомовних тестів (>60%) і свідчить про слабку підтримку мультимодальних можливостей для української мови.

Офіційні дані ЗНО‑2021 в Україні показали те, скільки учасників успішно склали (тобто подолали порогові бали: "склав/не склав") предмети:

  • Українська мова: 92,55 % склали (7,45 % не здали).
  • Українська мова і література: 92,04 % склали (7,96 % не склали).
  • Історія України: 82 % склали (18 % не склали).
  • Біологія: 97,66 % склали (2,34 % не склали).
  • Географія: 94,62 % склали (5,38 % не склали).
  • Математика: 68,89 % склали (31,11 % не набрали порогового балу).

Як повідомляв "Укрінформ", 24 березня 2022 року Верховна Рада ухвалила Закон №7132, яким було скасовано проведення ДПА, ЗНО та єдиного вступного іспиту у зв’язку з повномасштабною війною. У результаті цих змін для випускників запровадили альтернативний формат – Національний мультипредметний тест (НМТ).