A mesterséges intelligencia nem tud magyarul, és ezért te jársz rosszul
Az internet nyelve alapvetően az angol, ezt mindannyian tudjuk, és tapasztaljuk, de vajon hányan vannak, akik megkérdőjelezik, hogy jól van-e ez így. Eddig ha nyelveket tudtál, kinyílt előtted a világ, azonban a mesterséges intelligencia, és a nagy nyelvi modellek térhódításával beszélnünk kell arról is, hogy mi lesz azokkal az emberekkel, országokkal és népekkel, amelyek nem az angolszász világhoz tartoznak. Hogyan lehet demokratizálni a világot a mesterséges intelligencia segítségével, ha az a nyelvek jelentős részét nem ismeri?
Ezeket láttad már?
Európa több mint 200 nyelvnek és gazdag kulturális örökségnek ad otthont, amely több ezer évezredre nyúlik vissza. Az emberiség megszámlálhatatlan kulturális értéket őriz, amelyek népek, korok, emberek történetét mesélik el. A Microsoft jelentése szerint azonban ha nem figyelünk eléggé, és nem lépünk időben, a világ digitalizálódásának lehet egy olyan hatása is, hogy Európa nyelvi és kulturális sokszínűsége veszélybe kerülhet, ugyanis a Nagy Nyelvi Modellek (LLM-ek) mint a Chat GPT vagy a Gemini és a többi, többségében angol nyelvű forrásokból tanulnak, és sok tartalom amerikai nézőpontot tükröz.
Egy város, ami a világot irányítja
San José Kalifornia egyik legnépesebb városa, ahol a világon a harmadik legmagasabb az egy főre eső GDP (Zürich és Oslo után), és az ötödik legdrágább ingatlanpiaccal rendelkezik. Olyan cégek központja, mint a Cisco, eBay, Zoom, PayPal, Adobe, a közvetlen környékéin pedig ott a Google, a Facebookot és az Instagramot is működtető Meta, az Apple, Intel, Netflix, HP és még rengeteg olyan techóriás központja, amelynek termékeit, szoftvereit és szolgáltatásait napi szinten használod. Vagyis rengeteg dolgot irányít a világban ez a nem túl nagy terület.
Ez a példa tökéletesen megmagyarázza, miért kerülhet veszélybe az Európai kultúra, és miért figyelmeztet az Európai Bizottság is, hogy sürgős intézkedések nélkül ez az egyensúlyhiány nemcsak kulturális, hanem kereskedelmi aggodalom is: Az olyan mesterséges intelligencia, amely nem érti Európa nyelveit, történelmét és értékeit, nem tudja teljes mértékben szolgálni az embereit, vállalkozásait vagy jövőjét.
Az Európai Uniónak 24 hivatalos nyelve van, és ezen kívül még több tucatot ismernek el nemzeti vagy regionális szinten. Ennek ellenére sok nyelv – még azok is, amelyek az hivatalos 24 részei, mint például a magyar, dán, finn, svéd és görög – kevesebb mint 0,6 százalékát képviselik (a magyar nyelvű webes tartalom aránya mindössze 0,56 százalék) a webes tartalomnak. Mások, mint például a máltai, ír, észt, lett, szlovén, alig láthatók online.
Nem fogadott hívással keresnek, pedig nem is telefonáltál - így élnek vissza a telefonszámoddal a tudtodon kívül
Miért baj ez?
Amikor azt mondjuk, hogy a mesterséges intelligencia nem "érti" a magyart, az sokkal többet jelent annál, mint hogy nehezen tudsz vele csevegni a magyar filmekről, nem ismeri a népdalokat vagy a magyar mémeket. Ami ennél jóval nagyobb baj, az a pontosság, a megbízhatóság és a gazdasági potenciál.
A pontatlanság, avagy a hallucináció: A korlátozott mennyiségű képzési adaton edzett LLM-ek kevésbé pontosak, hajlamosabbak a hibákra, sőt, az úgynevezett "hallucinációkra", vagyis a valótlan információk generálására. Ha a modell pontatlanul vagy félreértelmezve dolgozik a magyar nyelvű, specifikus adatokkal, a kapott eredmények használhatatlanok lehetnek.
Még a gépeknek is nehéz: A magyar nyelv komoly kihívás az algoritmusoknak is. Ezek az eszközök optimalizálatlanul darabolhatják fel a szöveget, ami rontja a modell képességét a szövegkörnyezet (kontextus) megértésére, és a pontos helyesírásra. Hiába tud a nagyobb modell valamennyire magyarul, ha hiányzik belőle a nyelvi árnyalat, a kulturális kontextus és a regionális mélység. Ez azt jelenti, hogy egy egyszerű fordításon túl is megmarad a nyelvi szakadék: a magyar nyelv sajátos fordulatait, szólásait, a helyi történelmi vagy kulturális utalásokat nem fogja megfelelően kezelni.
Az oktatásra is hat: A magyar oktatási rendszerben részt vevő diákok is hátrányt szenvedhetnek, ha a legfejlettebb AI alapú oktatási források nem elérhetők a nyelvükön. Ez potenciálisan korlátozza a tanulási lehetőségeiket. Az EU AI Continent Action Plan szerint a nyelvi akadályok lebontása az egységes piacon akár 360 milliárd euróval is növelhetné az EU-n belüli kereskedelmet, ami jól mutatja a nyelv gazdasági erejét
Mit lehet tenni?
A Microsoft idén kifejezetten Európára szabott digitális kötelezettségvállalást tett, amelynek a célja az „AI és felhőinfrastruktúra bővítése, a digitális ellenállóképesség és adatvédelmi védelem erősítése, a kiberbiztonság fokozása, valamint Európa digitális szuverenitásának és szélesebb gazdaságának támogatása" - áll a közleményben. A mesterséges intelligencia rendszerekben az európai nyelvek inkluzívabb megjelenítése mellett fontos, hogy az európai kulturális értékeket is megőrizzük, emiatt azt is vállalták, hogy nevezetességek és műtárgyak digitális másolatait és adatait is megőrzik. Idén ősszel például létrehozzák a párizsi Notre Dame felújított templomának digitális másolatát.
Ezt a 10 legutáltabb házimunkát már most sem kell elvégezned
„A technológiának tükröznie kell az emberiség gazdagságát, megfontolt lépésekkel pedig segíthetünk abban, hogy a mesterséges intelligencia ne eltörölje, hanem erősítse a nyelvi és kulturális sokszínűséget, megszüntethetjük a szakadékot, és olyan digitális jövőt építhetünk, amely minden nyelvet, minden kultúrát és minden közösséget megmutat Európa-szerte" - tette hozzá a Microsoft.