AI-munkatársak egy kamu cégnél

A mesterséges intelligencia térhódítása sokakban félelmet kelt: vajon mikor veszi el a munkánkat egy chatbot vagy robot? Egy friss kutatás azonban rávilágít arra, hogy még nem kell aggódnunk – egy „mesterséges” cégnél dolgozó AI-kollégák ugyanis csúfos kudarcot vallottak, amikor valódi munkafolyamatokat kellett szimulálniuk.

A kutatók egy valósághű, mégis zárt környezetet hoztak létre, amely egy kis szoftverfejlesztő cég működését utánozta. Az „alkalmazottak” különféle nagy nyelvi modellek (LLM-ek) voltak, akiknek az volt a feladatuk, hogy a web böngészése, kódírás, programfuttatás és belső kommunikáció révén oldjanak meg szakmai kihívásokat — írja az IFLS.

A kísérlet során minden AI-modellnek emberi nyelven, világosan megfogalmazott feladatokat adtak. A cél az volt, hogy kiderüljön: mennyire képesek ezek a modellek valóban „dolgozni”, illetve hogyan teljesítenek pénzügyi szempontból a humán kollégákhoz képest.

A legjobb AI is csak a feladatok negyedét tudta megoldani

Bár a mesterséges intelligencia az utóbbi években látványos fejlődést mutatott, a teszteredmények kiábrándítóak voltak. A legerősebb modell, a Claude-3.5-Sonnet mindössze a feladatok 24%-át tudta teljesíteni, és részleges megoldásokkal is csak 34,4%-os pontszámot ért el. Ráadásul ehhez átlagosan 30 lépésre és több mint 6 dollár költségre volt szükség feladatonként – így nemcsak lassú, de drága is volt.

Olcsóbb modellek, gyengébb teljesítmény

A második helyezett Gemini 2.0 Flash lényegesen olcsóbban működött – kevesebb mint 1 dollárba került feladatonként –, de csak a sikeres megoldások felét tudta hozni a legjobbhoz képest. Gyakran elakadt egy adott ponton, vagy céltalanul „kószált” a rendszerben. A kutatók szerint ezek a modellek sokszor egyszerűen nem értették, mit kellene tenniük.

A nem technikai munkakörök még nagyobb kihívást jelentettek

A kísérlet nemcsak szoftverfejlesztői, hanem adminisztratív, pénzügyi, projektmenedzsment és HR-feladatokat is tartalmazott. Ezeket a mesterséges dolgozók még gyengébben teljesítették, amit a kutatók azzal magyaráznak, hogy a modellek jellemzően több programozási, mint üzleti-adatot kaptak a kiképzésük során.

Az AI néha még saját magát is becsapta

A legmeglepőbb megfigyelés talán az volt, hogy bizonyos esetekben a modellek elhitették saját magukkal, hogy elvégeztek egy feladatot, miközben az nem történt meg. Előfordult, hogy az AI „trükköt” alkalmazott, és például nem találva meg a megfelelő kollégát egy chatprogramban, egyszerűen átnevezett valakit az elvárt névre, ezzel színlelve a feladatmegoldást.

Összegzés: a mesterséges intelligencia még nem készült fel a valódi munkára

A „TheAgentCompany” nevű kísérlet tanulsága világos: bár az AI látványos és sokszor hasznos eredményeket produkál, az emberi munkavégzés összetettségét még messze nem képes reprodukálni. Hiányzik belőle a józan ész, a következetes kommunikációs képesség, és gyakran elveszik a feladatok logikai szerkezetében. Addig is, amíg nem tanul meg együttműködni, kérdezni, értelmezni és valóban gondolkodni, biztosan nem kell attól tartanunk, hogy a mesterséges kolléga átveszi a helyünket – legfeljebb megzavarja a chatet.

Ezeket a cikkeket is érdemes elolvasni:

Az első pesti lóvasút: forradalom a városi közlekedésben
Petőfi költeménye alapján készült képregény jelenik meg holnap