
Ráengedték a mesterséges intelligenciát az iskolai kompetenciatesztekre, meglepő eredmény született

További Tech-Tudomány cikkek
-
Az űrben rekedt asztronauták 300 nap után hazatérhetnek, megérkezett a váltás
- Tényleg a hasunkkal gondolkodunk? A válasz még a kutatókat is meglepte
- Megfizethető akkubajnok órát hozott Magyarországra a Xiaomi
- Együnk úgy, ahogy a szervezetünkben tanyázó baktériumok szeretnék
- Megvan, mely európai műholdas cégek válthatják a Starlinket Ukrajnában
Az elmúlt hetekben az iskolai kompetenciamérések megváltoztatásától volt hangos a sajtó, majd a belügy végül tisztázta, hogy Pintér Sándor rendelettervezete egyelőre marad tervezet státuszban, ugyanis annyi észrevétel érkezett a mérések osztályozásával kapcsolatban, hogy a tárca még nem dolgozta fel az adatokat. Válaszukból az derült ki, hogy a jelenlegi szabályozásban nem lesz változás, így az egyeztetéseket tovább folytatják.
A Peak Fintech Solutions Zrt. viszont teljesen más oldalról közelítette meg a kompetenciamérések okozta nehézségeket, ugyanis legutóbbi kutatásukban a mesterségesintelligencia-modellek magyar oktatási környezetben való teljesítményét vizsgálták, és azt, hogy a legnépszerűbb AI-modellek hogyan állják meg a helyüket az országos iskolai kompetenciamérések során. A kutatás lényege, hogy a fejlődő AI-modellek valóban képesek-e helytállni a mindennapi életben, vagy csak mesterséges tesztkörnyezetekben brillíroznak.
A mesterséges intelligencia nem csodaszer, valós környezetben való alkalmazása komoly kihívásokkal jár
– nyilatkozta Sajtos István, a Peak innovációs részlegének vezetője. „Kísérletünkben a legnépszerűbb AI-modelleket – mint például az OpenAI GPT-4o, a Claude Sonnet 3.7, a Google Gemini Flash 2.0, az Elon Musk xAI-a által fejlesztett Grok 3, valamint a kínai DeepSeek v3 – valós, hazai oktatási kontextusban teszteltük: az országos iskolai kompetenciaméréseken” – tette hozzá.
Az eredményekről egy nyilvános sajtóeseményen számoltak be a Peak főhadiszállásán, ahol bemutatták a kísérlet technológiai alapjait és megközelítését, élőben tesztelték a népszerűbb AI-okat a kompetenciaméréseken, valamint azt is bemutatták, hogy milyen más területeken használható a mesterséges intelligencia hatékonyan.

Kompetenciák halmaza
Sajtos István azzal kezdte a prezentációt, hogy a kompetenciamérés nem a bemagolt tudást méri, hanem egy általános kompetenciát a mindennapi életből vett komplex feladatokkal, az objektíven kiértékelt eredményekkel pedig fel lehet térképezni az iskolák, a régiók fejlődését. Ugyanígy ők is mérik az AI-k kompetenciáit, így adta magát a dolog, hogy a kettőt össze kellene vonni.
Az AI-k teljesítményét több benchmark programmal is mérik (MMLU, HumanEval, MATH, GPQA), ezek a mesterséges intelligencia különböző területein mért fejlődést szondázzák, ezeket az új modelleknél, modellfrissítéseknél szokták bevetni, hogy megtudják, mennyit fejlődtek a szoftverek. Az összehasonlítási eredményekből kitűnt, hogy a GPQA-teszteknél (ahol nem lehet egyszerűen rákeresni a megoldásra a neten) a leggyengébbek az eredmények, viszont a sima tudásalapú, programozás részeken nagyjából mind jól teljesített (90 százalék feletti eredményekkel). A matematikai feladatoknál viszont felemás az összkép.
Az iskolai kompetenciaméréseknél a különböző AI-ok azt az utasítást kapták, hogy oldják meg a szövegben – vagy képes ábrák esetén a képen – a feladatot, nem próbálkoztak különböző paraméterekkel. Matematikánál és szövegértésnél kaptak mindössze mérhető adatokat, a többi tantárgynál annyira kevés adat állt rendelkezésre, hogy nem voltak reprezentatívak az eredmények.
Az eredmények mellett az is fontos volt, hogy az AI-ok milyen sebességgel és milyen költségigénnyel oldották meg a feladatokat.
A végeredményekből kiolvasható volt, hogy a legtöbb szoftver a szövegértéssel tökéletesen megbirkózott – 90 százalék feletti eredménnyel, de nem volt ritka a 100 százalék sem –, viszont a matekkal már meggyűlt a bajuk, ezt a szakemberek a képekre vezették vissza, amelyekkel például a DeepSeek vagy az OpenAI o1-minije nem tudott mit kezdeni.

Technikai részletek
A Peak kíváncsi volt, hogy kiszakítva a laborkörnyezetből hogyan teljesítenek az AI-ok, ugyanis hipotézisként felvetették, hogy egy hosszabb távú, összetettebb feladattal az egyszerűbb programok nem boldogulnak, nem biztos, hogy megértik, hogy az életből vett példák pontosan mire vonatkoznak.
Az AI-ok nehezen olvasnak le grafikonról pontokat, nehezen érzékelik a képeket, ezekben a kérdésekben kifejezetten korlátozottak a nyelvi modellek
– erősítette meg Sajtos a cég felvetését.
Összegezve Sajtos azt mondta, hogy az OpenAI nem véletlenül piacvezető, hiszen az o1 egyértelműen kiemelkedett mindkét feladattípusban, még az Anthropic Sonat 3.7-es modellje volt képes 60 százalék felett teljesíteni matekból, a 70 százalékot pedig csak az o1 haladta meg. A lista végén mindkét tantárgyból egyértelműen a DeepSeek áll, amely matekból 10 százalék körül teljesített, szövegértésből pedig jóval a többiek mögött lemaradva a 70 százalék körüli eredményeket ostromolta.
A nagyvállalati bevezetés három problémába ütközik: az integráció nehézsége, a bizalomhiány és a kevés szakember. A bizalomhiány nem véletlen a szakember szerint, hiszen a nagy nyelvi modellek hallucinálhatnak és „fagyhatnak” is – megpróbálják kitölteni azt a területet, amire nem tudják a választ –, ráadásul az áttérés nem olcsó mulatság. Éppen ezért egy RAG- (Retrival Augment Generation) -modellt dolgoztak ki, amely egy korlátozott környezetet biztosít a modelleknek, amelyben sokkal fókuszáltabban tudnak működni, és pontosabb válaszokkal szolgálnak.
Ennek lényege, hogy a feltett kérdésre/kapott feladatra az AI agent (ügynök) kiosztja a feladatokat alügynököknek (fordító AI, adatbázis, táblázat, bármi), amik abban a részfeladatban a legjobbak, majd a részválaszokat összegyúrva a végén megadja a kérdésünkre a választ – sokkal pontosabban, mint ha csak egy szimpla AI-t használtunk volna.
Végül azzal zárta Sajtos a prezentációt, hogy a modellek még nem tökéletesek, viszont egyértelműen ajánlatos használni, hiszen hatalmas lehetőségek vannak az AI-ban.
Az AI segíti, de nem helyettesíti az emberi intelligenciát
– összegezte a PeakX vezetője.

Egyéb területek
Ezután bemutatta, hogy milyen más területeken használható az AI-asszisztens hatékonyan. Előkerültek a tőkebevonások, de a bankszakma is, ahol például az AI-asszisztens válaszol az ügyfelek által feltett kérdésekre, és élő ügyintézőt csak akkor keres meg, ha olyan problémával találkozik, amire nem találja az adatbázisokban a választ. Ez jobb ügyfélélményt és gyorsabb ügyintézést eredményez.
De például a munkáshitel-asszisztens – amely szintén az ügyfeleknek könnyíti meg az életét – is egy jó példa, hiszen 100 százalékos a helyes válaszadási mutatója, tehát a közel 100 oldalas útmutatóból mindent úgy olvas ki, hogy a kérdező megkapja a számára szükséges információt.
Emellett a kkv-k-nak is segít eligazodni a Demján Sándor Program előfelméréseiben, tehát kifejezetten a mindennap emberének segít eligazodni az unalmas napi teendők végeláthatatlan labirintusában.
(Borítókép: Diákok Törökországban. Fotó: Ercin Erturk / Anadolu / Getty Images)

Ehhez a cikkhez ajánljuk
- Tech-Tudomány
Újabb forradalmi áttörés született a kvantumfizikában
Szuperszilárd halmazállapotú fényt hoztak létre a kutatók.
március 9., 10:52
- Tech-Tudomány
Ez lett Magyarország leggyorsabb mobilhálózata
Országosan 99 százalékos a 4G lefedettsége.
március 13., 12:08
- Tech-Tudomány
Megvan, mely európai műholdas cégek válthatják a Starlinket Ukrajnában
A döntéshozók már el is kezdték a tárgyalásokat az Elon Muskhoz köthető rendszer helyettesítésére.
tegnap, 14:35
- Mindeközben
Geszler Dorottya szerint sokat nevetnek a próbákon Stohl Andrással, de A Nagy Duett színpadán veszekedni fognak
3 órája
- Mindeközben
Millie Bobby Brown készen áll a családalapításra, de előre leszegezte, nem áll meg négy gyerekig
5 órája
- Tech-Tudomány
Tényleg a hasunkkal gondolkodunk? A válasz még a kutatókat is meglepte
Szorosabb a kapocs az agy és a belek között, mint gondolnánk.
4 órája
- Tech-Tudomány
Több tízezer eszközzel pusztítják az internetet
Feltört eszközök tömegéről indítanak túlterheléses támadásokat.
március 13., 16:10
- Tech-Tudomány
Megfizethető akkubajnok órát hozott Magyarországra a Xiaomi
Teszten a Xiaomi Watch S4.
tegnap, 19:54
- Tech-Tudomány
Együnk úgy, ahogy a szervezetünkben tanyázó baktériumok szeretnék
Nem minden a probiotikum.
tegnap, 19:20
- Címlapon
Donald Trump pusztító katonai akciója után most Iránon és a húszi lázadókon a világ szeme
Kaiser Ferenc, a Nemzeti Közszolgálati Egyetem docense szerint az Egyesült Államok növeli a nyomást.
59 perce
- Mindeközben
Kiakasztja a cukiságmérőt a víziló bébi, amelyik anyjához bújva dobott egy szundit
tegnap, 22:00
- Tech-Tudomány
Elhalasztották a Falcon 9-es rakéta kilövését, két űrhajós továbbra sem térhet vissza a Földre
A két asztronauta kilenc hónapja tartózkodik a Nemzetközi Űrállomáson.
március 13., 18:12
- Tech-Tudomány
Több hónapnyi várakozás után visszahozzák a kint rekedt asztronautákat a Nemzetközi Űrállomásról
Nyolc napot töltöttek volna az űrben, de majd′ egy év lett belőle.
tegnap, 10:26
- Címlapon
Zelenszkij ismertette a béke alapfeltételeit: a megszállt területek nem képezik alku tárgyát
7 órája
- Tech-Tudomány
100 napig élt mesterséges szívvel egy férfi
Csak ezért vették ki, mert valódi donor szívet kapott.
március 12., 21:28
- Tech-Tudomány
Fontos chipgyártási monopóliumot törhet meg Kína
Saját EUV litográfiai berendezést építenek.
március 9., 12:52
- Tech-Tudomány
A mesterséges intelligencia párterapeutaként is remekel, méghozzá elég olcsón
Mindössze 7500 forint, gyors és nem kritizál.
március 13., 09:38
- Címlapon
Orbán Viktor beszéde kiverte a biztosítékot a nyugati sajtóban
A külföldi cikkek szerint önmagán is túlmutat a magyar miniszterelnök.
1 órája
- Mindeközben
Hajléktalan lett a '90-es évek ismert énekesnője, már évek óta az autójában húzza meg magát
tegnap, 18:30
- Tech-Tudomány
Nem lankad az orosz–amerikai küzdelem a kibertérben
Felröppent, hogy leállnak az elektronikus adok-kapokkal.
március 10., 11:54
- Tech-Tudomány
A felhasználók szemébe hazudott az Apple
És még a nyomokat is megpróbálták eltüntetni.
március 11., 06:07
- Címlapon
Beváltotta fenyegetését Donald Trump, kíméletlenül lecsapott az Egyesült Államok Jemenre
Több tucat halálos áldozatról érkezett jelentés.
5 órája
- Tech-Tudomány
Az űrben rekedt asztronauták 300 nap után hazatérhetnek, megérkezett a váltás
Még ma sem egyértelmű, mi történt pontosan.
2 órája
- Mindeközben
Legrosszabb rémálmát élte át egy 30 éves nő, aki nagy árat fizetett azért, hogy póthajat rakatott magának
tegnap, 16:45
- Tech-Tudomány
Nyugat-Európa legrégebbi emberi koponyamaradványait találták meg Spanyolországban
Az 1,1-1,4 millió éves csontok egy kihalt emberi fajhoz tartoznak.
március 12., 21:21