Штучний інтелект створений, щоб імітувати та перевершувати людський розум. Але наскільки сучасні провідні моделі ШІ близькі до цього з точки зору стандартного тесту на коефіцієнт інтелекту (IQ)? Нова інфографіка, заснована на даних тесту товариства Менса, дає відповідь на це питання, пише T4.
Тест Менса — це всесвітньо визнаний і складний іспит для оцінки людського інтелекту. Для контексту, середній показник IQ людини становить від 90 до 110 балів, а результат вище 130 зазвичай вважається рівнем геніальності.
Згідно з опублікованими даними, очолила список текстова модель o3 від OpenAI, яка набрала вражаючі 135 балів. Цей результат впевнено ставить її в категорію “геніїв” за людськими мірками. Як частина популярного інструменту ChatGPT, ця модель демонструє виняткові здібності до логічного мислення.
Недалеко від лідера розташувалися Claude-4 Sonnet від компанії Anthropic та Gemini 2.0 Flash Thinking від Google, які показали результати 127 та 126 балів відповідно. Інші сучасні моделі, такі як Gemini 2.5 Pro та OpenAI o4 mini, також набрали понад 120 балів, що значно вище за середній людський діапазон.
Однак картина кардинально змінюється, коли мова заходить про мультимодальні моделі, здатні аналізувати не лише текст, а й зображення. Саме вони показали найгірші результати в тесті.

Так, GPT-4o (Vision) від OpenAI та Grok-3 Think (Vision) від компанії Ілона Маска xAI продемонстрували показники значно нижчі за середній людський рівень — 63 та 60 балів відповідно.
Такий разюций розрив у результатах, імовірно, пояснюється специфікою самого тесту, який значною мірою орієнтований на абстрактно-логічне та вербальне мислення. Сучасні текстові моделі ШІ чудово справляються з такими завданнями. Водночас мультимодальні системи, які обробляють візуальну інформацію, стикаються зі складнішим викликом, коли потрібно інтерпретувати графічні патерни в рамках суворої логіки IQ-тесту, що поки що залишається для них слабким місцем.