Ráengedték a mesterséges intelligenciát az iskolai kompetenciatesztekre, meglepő eredmény született

További Tech-Tudomány cikkek

Az elmúlt hetekben lezajlott egy kutatás, amelyben a mesterséges intelligenciák (AI) kompetenciáit kutatva ráengedték a nyelvi modelleket (az OpenAI-tól kezdve a Geminin keresztül a DeepSeekig mindent) az iskolai országos kompetenciamérések feladatsoraira. Egészen érdekes eredmények születtek, amiket Sajtos István, a PeakX vezetője úgy summázott, hogy az AI ugyan sokat segíti, de nem helyettesíti az emberi intelligenciát, és van még hova fejlődnie.

Az elmúlt hetekben az iskolai kompetenciamérések megváltoztatásától volt hangos a sajtó, majd a belügy végül tisztázta, hogy Pintér Sándor rendelettervezete egyelőre marad tervezet státuszban, ugyanis annyi észrevétel érkezett a mérések osztályozásával kapcsolatban, hogy a tárca még nem dolgozta fel az adatokat. Válaszukból az derült ki, hogy a jelenlegi szabályozásban nem lesz változás, így az egyeztetéseket tovább folytatják.

A Peak Fintech Solutions Zrt. viszont teljesen más oldalról közelítette meg a kompetenciamérések okozta nehézségeket, ugyanis legutóbbi kutatásukban a mesterségesintelligencia-modellek magyar oktatási környezetben való teljesítményét vizsgálták, és azt, hogy a legnépszerűbb AI-modellek hogyan állják meg a helyüket az országos iskolai kompetenciamérések során. A kutatás lényege, hogy a fejlődő AI-modellek valóban képesek-e helytállni a mindennapi életben, vagy csak mesterséges tesztkörnyezetekben brillíroznak.

A mesterséges intelligencia nem csodaszer, valós környezetben való alkalmazása komoly kihívásokkal jár

– nyilatkozta Sajtos István, a Peak innovációs részlegének vezetője. „Kísérletünkben a legnépszerűbb AI-modelleket – mint például az OpenAI GPT-4o, a Claude Sonnet 3.7, a Google Gemini Flash 2.0, az Elon Musk xAI-a által fejlesztett Grok 3, valamint a kínai DeepSeek v3 – valós, hazai oktatási kontextusban teszteltük: az országos iskolai kompetenciaméréseken” – tette hozzá.

Az eredményekről egy nyilvános sajtóeseményen számoltak be a Peak főhadiszállásán, ahol bemutatták a kísérlet technológiai alapjait és megközelítését, élőben tesztelték a népszerűbb AI-okat a kompetenciaméréseken, valamint azt is bemutatták, hogy milyen más területeken használható a mesterséges intelligencia hatékonyan.

Kompetenciák halmaza

Sajtos István azzal kezdte a prezentációt, hogy a kompetenciamérés nem a bemagolt tudást méri, hanem egy általános kompetenciát a mindennapi életből vett komplex feladatokkal, az objektíven kiértékelt eredményekkel pedig fel lehet térképezni az iskolák, a régiók fejlődését. Ugyanígy ők is mérik az AI-k kompetenciáit, így adta magát a dolog, hogy a kettőt össze kellene vonni.

Az AI-k teljesítményét több benchmark programmal is mérik (MMLU, HumanEval, MATH, GPQA), ezek a mesterséges intelligencia különböző területein mért fejlődést szondázzák, ezeket az új modelleknél, modellfrissítéseknél szokták bevetni, hogy megtudják, mennyit fejlődtek a szoftverek. Az összehasonlítási eredményekből kitűnt, hogy a GPQA-teszteknél (ahol nem lehet egyszerűen rákeresni a megoldásra a neten) a leggyengébbek az eredmények, viszont a sima tudásalapú, programozás részeken nagyjából mind jól teljesített (90 százalék feletti eredményekkel). A matematikai feladatoknál viszont felemás az összkép.

Az iskolai kompetenciaméréseknél a különböző AI-ok azt az utasítást kapták, hogy oldják meg a szövegben – vagy képes ábrák esetén a képen – a feladatot, nem próbálkoztak különböző paraméterekkel. Matematikánál és szövegértésnél kaptak mindössze mérhető adatokat, a többi tantárgynál annyira kevés adat állt rendelkezésre, hogy nem voltak reprezentatívak az eredmények.

Az eredmények mellett az is fontos volt, hogy az AI-ok milyen sebességgel és milyen költségigénnyel oldották meg a feladatokat.

A végeredményekből kiolvasható volt, hogy a legtöbb szoftver a szövegértéssel tökéletesen megbirkózott – 90 százalék feletti eredménnyel, de nem volt ritka a 100 százalék sem –, viszont a matekkal már meggyűlt a bajuk, ezt a szakemberek a képekre vezették vissza, amelyekkel például a DeepSeek vagy az OpenAI o1-minije nem tudott mit kezdeni.

Technikai részletek

A Peak kíváncsi volt, hogy kiszakítva a laborkörnyezetből hogyan teljesítenek az AI-ok, ugyanis hipotézisként felvetették, hogy egy hosszabb távú, összetettebb feladattal az egyszerűbb programok nem boldogulnak, nem biztos, hogy megértik, hogy az életből vett példák pontosan mire vonatkoznak.

Az AI-ok nehezen olvasnak le grafikonról pontokat, nehezen érzékelik a képeket, ezekben a kérdésekben kifejezetten korlátozottak a nyelvi modellek

– erősítette meg Sajtos a cég felvetését.

Összegezve Sajtos azt mondta, hogy az OpenAI nem véletlenül piacvezető, hiszen az o1 egyértelműen kiemelkedett mindkét feladattípusban, még az Anthropic Sonat 3.7-es modellje volt képes 60 százalék felett teljesíteni matekból, a 70 százalékot pedig csak az o1 haladta meg. A lista végén mindkét tantárgyból egyértelműen a DeepSeek áll, amely matekból 10 százalék körül teljesített, szövegértésből pedig jóval a többiek mögött lemaradva a 70 százalék körüli eredményeket ostromolta.

A nagyvállalati bevezetés három problémába ütközik: az integráció nehézsége, a bizalomhiány és a kevés szakember. A bizalomhiány nem véletlen a szakember szerint, hiszen a nagy nyelvi modellek hallucinálhatnak és „fagyhatnak” is – megpróbálják kitölteni azt a területet, amire nem tudják a választ –, ráadásul az áttérés nem olcsó mulatság. Éppen ezért egy RAG- (Retrival Augment Generation) -modellt dolgoztak ki, amely egy korlátozott környezetet biztosít a modelleknek, amelyben sokkal fókuszáltabban tudnak működni, és pontosabb válaszokkal szolgálnak.

Ennek lényege, hogy a feltett kérdésre/kapott feladatra az AI agent (ügynök) kiosztja a feladatokat alügynököknek (fordító AI, adatbázis, táblázat, bármi), amik abban a részfeladatban a legjobbak, majd a részválaszokat összegyúrva a végén megadja a kérdésünkre a választ – sokkal pontosabban, mint ha csak egy szimpla AI-t használtunk volna.

Végül azzal zárta Sajtos a prezentációt, hogy a modellek még nem tökéletesek, viszont egyértelműen ajánlatos használni, hiszen hatalmas lehetőségek vannak az AI-ban.

Az AI segíti, de nem helyettesíti az emberi intelligenciát

– összegezte a PeakX vezetője.

Egyéb területek

Ezután bemutatta, hogy milyen más területeken használható az AI-asszisztens hatékonyan. Előkerültek a tőkebevonások, de a bankszakma is, ahol például az AI-asszisztens válaszol az ügyfelek által feltett kérdésekre, és élő ügyintézőt csak akkor keres meg, ha olyan problémával találkozik, amire nem találja az adatbázisokban a választ. Ez jobb ügyfélélményt és gyorsabb ügyintézést eredményez.

De például a munkáshitel-asszisztens – amely szintén az ügyfeleknek könnyíti meg az életét – is egy jó példa, hiszen 100 százalékos a helyes válaszadási mutatója, tehát a közel 100 oldalas útmutatóból mindent úgy olvas ki, hogy a kérdező megkapja a számára szükséges információt.

Emellett a kkv-k-nak is segít eligazodni a Demján Sándor Program előfelméréseiben, tehát kifejezetten a mindennap emberének segít eligazodni az unalmas napi teendők végeláthatatlan labirintusában.

(Borítókép: Diákok Törökországban. Fotó: Ercin Erturk / Anadolu / Getty Images)