Miközben a mesterséges intelligencia népszerűségének csúcsán jár, a kutatók arra figyelmeztetnek, hogy az iparág kifogyhat az adatokból, amelyekkel tanítani lehet a gépeket. Ez lelassíthatja a mesterséges intelligencia modellek, különösen a nagy méretű nyelvi modellek növekedését, és akár meg is változtathatja az mesterséges intelligencia forradalmának irányát.
Sok adatra van szükségünk ahhoz, hogy erős, pontos és jó minőségű algoritmusokat képezhessünk. A ChatGPT-t például 570 gigabájtnyi szöveges adaton, azaz körülbelül 300 milliárd szó felhasználásával képezték ki. Hasonlóképpen, a képgeneráló algoritmusokat 5,8 milliárd kép-szöveg párosból álló LIAON-5B adathalmazon képezték ki. Ha nincs megfelelő mennyiségű és minőségű adat, akkor a mesterséges intelligencia rossz minőségű produktomokat fogy gyártani.
A képzési adatok minősége is fontos. Az alacsony minőségű adatok, például a közösségi médiában közzétett bejegyzések vagy elmosódott fényképek nem elegendőek a nagy teljesítményű mesterséges intelligencia modellek betanításához. A közösségi médiaplatformokról vett szövegek elfogultak vagy előítéletesek lehetnek. Tartalmazhatnak dezinformációt vagy illegális tartalmakat, amelyeket a modell lemásolhat. Amikor például a Microsoft a Twitter-tartalmak felhasználásával próbálta betanítani a mesterséges intelligencia robotját, az rasszista és nőgyűlölő lett. Ezért a mesterséges intelligenciák fejlesztői olyan jó minőségű tartalmakat keresnek, mint a könyvek, online cikkek, tudományos cikkek, a Wikipedia és bizonyos szűrt webes tartalmak szövegei.
Lesz-e elég adatunk?
Az ipar egyre nagyobb adathalmazokon képezte ki a rendszereket, ezért léteznek olyan nagy teljesítményű modellek, mint a ChatGPT vagy a DALL-E 3. Ugyanakkor a kutatások szerint az online adatállományok sokkal lassabban nőnek, mint a képzéséhez használt adathalmazok. Kutatók egy csoportja szerint még 2026 előtt kifogyunk a jó minőségű szöveges adatokból, amennyiben a jelenlegi trendek folytatódnak. Becsléseik szerint az alacsony minőségű nyelvi adatok valamikor 2030 és 2050 között, az alacsony minőségű képi adatok pedig 2030 és 2060 között fognak kimerülni — írja a Science Alert.
Bár az előbbiek riadalmat kelthetnek egyes, a helyzet talán nem olyan rossz, mint amilyennek látszik. Számos ismeretlen dolog van azzal kapcsolatban, hogy hogyan fognak fejlődni az AI-modellek a jövőben. Ezenkívül az adathiány kockázatának kezelésére is van már mód. Az egyik lehetőség az, hogy a fejlesztők javítják az algoritmusokat a hatékonyabb adatfelhasználás érdekében. Valószínű, hogy kevesebb adat segítségével is képes lesznek magas teljesítményű modelleket képezni.
A fejlesztők az ingyenes online téren kívül is keresnek tartalmakat. A nagy kiadók és offline tárolók által tárolt tartalmakat. Gondoljunk csak az internet előtt kiadott szövegek millióira. Digitálisan elérhetővé téve ezek új adatforrást jelenthetnek a mesterséges intelligencia számára.
A News Corp, a világ egyik legnagyobb híroldal-tulajdonosa nemrégiben közölte, hogy tartalmi megállapodásokról tárgyal fejlesztőkkel. Az ilyen megállapodások arra kényszerítenék a a fejlesztőket, hogy fizessenek a képzési adatokért, miközben eddig ingyen szerezték az adatokat. A tartalomkészítők tiltakoztak az ellen, hogy a tartalmukat jogosulatlanul használják fel mesterséges intelligenciamodellek képzésére. Néhányan be is pereltek olyan vállalatokat, mint a Microsoft, az OpenAI és a Stability AI. A munkájukért járó díjazás segíthet helyreállítani az alkotók és a vállalatok között fennálló hatalmi egyensúlyhiányt.
Ezeket a cikkeket is érdemes elolvasni:
itt tudod támogatni az oldalunkat
Érdemes elolvasni
Magyar kamera figyeli a japán fúziós reaktorban zajló folyamatokat
2300 évig iszapfürdő temette be ezeket a szobrokat, tökéletes állapotban kerültek elő
Nagy kanállal fogyasztja az orosz tábornokokat az ukrajnai háború
Így néznek ki az ókori műemlékek eredeti színekben
5 ma is gyakran használt testjel, amit ókori őseinktől tanultunk
Jaszuke, az afrikai szamuráj és különös története