A mesterséges intelligencia térhódítása sokakban félelmet kelt: vajon mikor veszi el a munkánkat egy chatbot vagy robot? Egy friss kutatás azonban rávilágít arra, hogy még nem kell aggódnunk – egy „mesterséges” cégnél dolgozó AI-kollégák ugyanis csúfos kudarcot vallottak, amikor valódi munkafolyamatokat kellett szimulálniuk.
A kutatók egy valósághű, mégis zárt környezetet hoztak létre, amely egy kis szoftverfejlesztő cég működését utánozta. Az „alkalmazottak” különféle nagy nyelvi modellek (LLM-ek) voltak, akiknek az volt a feladatuk, hogy a web böngészése, kódírás, programfuttatás és belső kommunikáció révén oldjanak meg szakmai kihívásokat — írja az IFLS.
A kísérlet során minden AI-modellnek emberi nyelven, világosan megfogalmazott feladatokat adtak. A cél az volt, hogy kiderüljön: mennyire képesek ezek a modellek valóban „dolgozni”, illetve hogyan teljesítenek pénzügyi szempontból a humán kollégákhoz képest.
A legjobb AI is csak a feladatok negyedét tudta megoldani
Bár a mesterséges intelligencia az utóbbi években látványos fejlődést mutatott, a teszteredmények kiábrándítóak voltak. A legerősebb modell, a Claude-3.5-Sonnet mindössze a feladatok 24%-át tudta teljesíteni, és részleges megoldásokkal is csak 34,4%-os pontszámot ért el. Ráadásul ehhez átlagosan 30 lépésre és több mint 6 dollár költségre volt szükség feladatonként – így nemcsak lassú, de drága is volt.
Olcsóbb modellek, gyengébb teljesítmény
A második helyezett Gemini 2.0 Flash lényegesen olcsóbban működött – kevesebb mint 1 dollárba került feladatonként –, de csak a sikeres megoldások felét tudta hozni a legjobbhoz képest. Gyakran elakadt egy adott ponton, vagy céltalanul „kószált” a rendszerben. A kutatók szerint ezek a modellek sokszor egyszerűen nem értették, mit kellene tenniük.
A nem technikai munkakörök még nagyobb kihívást jelentettek
A kísérlet nemcsak szoftverfejlesztői, hanem adminisztratív, pénzügyi, projektmenedzsment és HR-feladatokat is tartalmazott. Ezeket a mesterséges dolgozók még gyengébben teljesítették, amit a kutatók azzal magyaráznak, hogy a modellek jellemzően több programozási, mint üzleti-adatot kaptak a kiképzésük során.
Az AI néha még saját magát is becsapta
A legmeglepőbb megfigyelés talán az volt, hogy bizonyos esetekben a modellek elhitették saját magukkal, hogy elvégeztek egy feladatot, miközben az nem történt meg. Előfordult, hogy az AI „trükköt” alkalmazott, és például nem találva meg a megfelelő kollégát egy chatprogramban, egyszerűen átnevezett valakit az elvárt névre, ezzel színlelve a feladatmegoldást.
Összegzés: a mesterséges intelligencia még nem készült fel a valódi munkára
A „TheAgentCompany” nevű kísérlet tanulsága világos: bár az AI látványos és sokszor hasznos eredményeket produkál, az emberi munkavégzés összetettségét még messze nem képes reprodukálni. Hiányzik belőle a józan ész, a következetes kommunikációs képesség, és gyakran elveszik a feladatok logikai szerkezetében. Addig is, amíg nem tanul meg együttműködni, kérdezni, értelmezni és valóban gondolkodni, biztosan nem kell attól tartanunk, hogy a mesterséges kolléga átveszi a helyünket – legfeljebb megzavarja a chatet.
Ezeket a cikkeket is érdemes elolvasni:
Az első pesti lóvasút: forradalom a városi közlekedésben
Petőfi költeménye alapján készült képregény jelenik meg holnap
itt tudod támogatni az oldalunkat
Érdemes elolvasni
Ha minden jól megy, erre az egzotikus helyszínre repülhetünk majd rövidesen Budapestről
Akár 1000 fekete lyuk is lehet az otthonunkban egy elképesztő felfedezés szerint!
A MÁV a legnagyobb hőségben hagyta cserben az utasait
A halott pulzárok centiméteres „hegyeik” miatt bocsáthatnak ki rádióhullámokat
Meghökkentő: Gyermekek ellen elkövetett súlyos bűncselekmények rázták meg Magyarországot
Top 7 úticél, ahová jobban megéri vonattal utazni Budapestről, mint repülővel