fbpx

Beteja e modeleve gjuhësore: Claude kundër GPT (dhe çfarë lidhje ka kjo me Maqedoninë dhe gjuhën tonë?)

Branko Përlja

Media

03.07.24

Прегледи
Ky përparim nuk është vetëm një arritje akademike. Ai ka potencial për të përmirësuar mjetet për përkthim automatik, krijimin e përmbajtjes dhe përpunimin e gjuhës natyrore për folësit maqedonas, si dhe ruajtjen dhe promovimin e gjuhës maqedonase në epokën digjitale.
Në botën e inteligjencës artificiale, modelet gjuhësore janë në një garë të vazhdueshme për dominim. Kjo betejë teknologjike nuk është vetëm një çështje prestigji, por edhe e fuqisë reale në epokën digjitale. Për një kohë të gjatë ChatGPT i OpenAI ishte lideri i padiskutueshëm, por tani Claude i Anthropic po shfaqet si një sfidues serioz. Prej muajsh është përfolur se Claude e ka tejkaluar GPT-në, por deri më tani ka qenë e paqartë. Çfarë ka ndryshuar dhe a është në të vërtetë kështu?

Matja e suksesit: Si krahasohen modelet gjuhësore?

Për të përcaktuar se cili model është më i mirë, përdoren teste specifike të njohura si "benchmarks". Këto teste ndryshojnë nga testet standarde njerëzore dhe mund të ndryshojnë në varësi të asaj që vlerësohet. Për shembull, nëse një modeli gjuhësor i jepet detyra të shkruajë një histori të shkurtër për Mbretin Marko, kjo mund të konsiderohet një test standard. Megjithatë, për të qenë e vlefshme, është e nevojshme të vendosen kritere të qarta vlerësimi. Këto mund të përfshijnë cilësinë e stilit, strukturën narrative, saktësinë historike ose kreativitetin në rrëfim. Është e rëndësishme të theksohet se testet benchmark nuk janë gjithmonë plotësisht objektive. Ato mund të dizajnohen për të theksuar disa aspekte të performancës së modelit, të cilat mund të çojnë në rezultate të njëanshme. Kjo është veçanërisht e rëndësishme në kontekstin e "luftës së ftohtë" teknologjike midis kompanive të inteligjencës artificiale, ku secila dëshiron të perceptohet si lider në këtë fushë. Megjithatë, për përdoruesin mesatar, testet zyrtare benchmark mund të mos jenë më relevantet. Për shembull, çfarë do të thotë nëse një model është i shkëlqyeshëm në shkrimin e kodit, por përdoruesi nuk është programues? Prandaj, shumë studiues dhe entuziastë zhvillojnë testet e tyre që janë më relevante për nevojat e tyre specifike.

Sfida maqedonase: Test benchmark në Arno.mk

Në Arno.mk u trajnua modeli i parë grafik për ilustrim të personazheve nga historia maqedonase (Goran Stefanovski, Petre M. Andreevski, Toshe Proeski, Gjorgji Abaxhiev), aty është botuar libri dhe romani i parë grafik në gjuhën maqedonase me ilustrime të bëra me inteligjencë artificiale, aty u publikuan videot e para edukative me ndihmën e AI dhe filmi i parë i shkurtër maqedonas i bërë me inteligjencë artificiale. Në këtë kontekst, Арно.мк, portal maqedonas për shkencë, teknologji dhe art, ka zhvilluar një test unik benchmark të fokusuar në aftësinë e modeleve gjuhësore për të punuar me gjuhën maqedonase. Ky test, i quajtur "shkrimi i një pangrami të vërtetë në gjuhën maqedonase", u krijua në mars të vitit 2023, kur modelet gjuhësore ende po bëheshin të njohura. Zgjedhja e pangramit si test nuk është e rastësishme. Një pangram është një fjali që përmban çdo shkronjë të alfabetit të paktën një herë. Për njerëzit, krijimi i një pangrami mund të jetë një sfidë argëtuese gjuhësore. Megjithatë, për modelet gjuhësore, kjo është një detyrë jashtëzakonisht komplekse që kërkon numërim të saktë të karaktereve dhe një kuptim të thellë të gjuhës. Ky ndryshim në vështirësinë e detyrës për njerëzit kundrejt makinerive njihet si Paradoksi i Moravecit: " Ajo që është e lehtë për ne është e vështirë për AI/robotët dhe anasjelltas." Pangrami më i shkurtër i njohur në gjuhën maqedonase është shkruar nga Zhivko Grozdanovski, kryetari aktual i SHSHM-së. Ky pangram shërben si standardi i artë për krahasim me përpjekjet e modelit të inteligjencës artificiale. Për të lehtësuar procesin e testimit, ekipi i Arno.mk ka zhvilluar një "Pangram checker" - një mjet i programuar duke përdorur ChatGPT 3.5. Ky mjet automatikisht kontrollon nëse fjalia e dhënë përmban të gjitha shkronjat e alfabetit maqedonas, gjë që mundëson një vlerësim të shpejtë dhe të saktë të përpjekjeve të modeleve të inteligjencës artificiale. Mund ta shkarkoni kodin burimor të programit nga këtu.

Historiku i eksperimenteve

Në eksperimentet fillestare me ChatGPT, ekipi i Arno.mk arriti rezultate inkurajuese, megjithëse procesi ishte i mundimshëm. Ishte e nevojshme për të "trajnuar" ChatGPT dhe për ta përdorur atë për të shkruar një program për të testuar veten. Megjithëse ChatGPT nuk arriti të krijonte një pangram të përsosur, ai u afrua më shumë se çdo model tjetër në atë kohë. Kjo ishte veçanërisht mbresëlënëse duke pasur parasysh faktin se shumë modele në atë kohë nuk e njihnin as gjuhën maqedonase e as alfabetin cirilik. Përfundimi i këtyre eksperimenteve të hershme ishte se krijimi i një pangrami në gjuhën maqedonase ishte i pamundur për modelet e atëhershme gjuhësore, madje edhe për ato më të avancuara. Kjo sfidë u quajt "thyerja e shpinës" e një modeli gjuhësor, duke aluduar në videon e njohur të K-15.

Progresi i Claude

Në mars të vitit 2024, ekipi i Arno.mk testoi Claude 3 me të njëjtin test. Pavarësisht pretendimeve të Anthropic se modeli i tyre ia kalonte GPT-4, Claude u tregua i pamjaftueshëm për detyrën. Përfundimi ishte se ChatGPT ende mbetet superior, të paktën në kontekstin e punës me gjuhën maqedonase. Sidoqoftë, në qershor të vitit 2024, me lëshimin e Claude 3.5, situata ndryshoi në mënyrë dramatike. Ky model i ri u shpall si superior ndaj GPT-4o, versioni aktual i modelit OpenAI. Edhe pse fillimisht skeptik, studiuesit e Arno.mk vendosën ta testojnë atë. Rezultatet ishin të habitshme. Claude 3.5 arriti të krijojë një pangram në gjuhën maqedonase pas vetëm pesë përpjekjeve. Rezultati përfundimtar ishte: “Teli i murit të fabrikës me kumbe, gezve dhe hops që nuhasin – ndarja e bulevardit çuditërisht më tronditi”. ("Фабричка ѕидна жица со ќумбе, ѓезве и њушкав хмељ - булева преграда чудно џиткаше јас.") Sipas kontrolluesit të pangramit, kjo fjali përmban të gjitha 31 shkronjat e alfabetit maqedonas dhe ka gjithsej 69 karaktere. Edhe pse jo perfekte - fjalët "njushkav" dhe "buleva" nuk janë fjalë standarde maqedonase - kjo paraqet një përmirësim të konsiderueshëm në krahasim me përpjekjet e mëparshme.

GPT-4o nuk dorëzohet!

Për të siguruar një krahasim të drejtë, ekipi i Arno.mk testoi edhe modelin më të fundit GPT-4o me të njëjtën sfidë të "thyerjes së shpinës". Pas tetë përpjekjesh, GPT-4o gjithashtu arriti të krijojë një pangram: "Bretkosa gjigante trokiti saktësisht çdo mur dhe hodhi një valixhe në errësirë, duke parë Gjergjin dhe Ljupçon, ata thyejnë merimangën dhe shishen e tyre të guximshme.". ("Џиновската жаба прецизно чукна секој ѕид и фрли куфер во мрак, гледајќи Ѓорѓи и Љупче, тие ќарат нивниот храбар пајажњар и шише.") Ky pangram përmban të gjitha 31 shkronjat dhe ka gjithsej 104 karaktere, duke e bërë atë më të gjatë dhe më pak elegant se ai i Claude 3.5. Këto rezultate tregojnë një përparim të konsiderueshëm në aftësinë e modeleve gjuhësore për të punuar me gjuhën maqedonase. Fakti që të dy Claude 3.5 dhe GPT-4o arritën të krijonin pangram është mbresëlënës, veçanërisht duke pasur parasysh që vetëm një vit më parë kjo konsiderohej një detyrë e pamundur. Megjithatë, Claude 3.5 shkëlqen në efikasitetin e tij, duke krijuar një pangram më të shkurtër dhe më elegant në më pak përpjekje. Kjo sugjeron që Claude me të vërtetë mund të ketë kaluar GPT në disa aspekte të të kuptuarit dhe gjenerimit të gjuhës.

Implikimet dhe e ardhmja

Është e rëndësishme të theksohet se ky test, megjithëse mbresëlënës, është vetëm një aspekt i aftësive të modeleve gjuhësore. Nevojiten teste shtesë dhe më të larmishme për të marrë një pamje të plotë të meritave relative të këtyre modeleve. Gjithashtu, progresi i shpejtë në këtë fushë tregon se situata mund të ndryshojë shpejt. Mund të presim që OpenAI dhe Anthropic, si dhe kompanitë e tjera në këtë fushë, do të vazhdojnë të përmirësojnë modelet e tyre me një ritëm të shpejtë. Edhe pse është shumë herët për të shpallur një fitues definitiv në "luftën" e modeleve gjuhësore, eksperimentet e Arno.mk tregojnë se Claude 3.5 ka bërë një hap të rëndësishëm përpara. Aftësia e tij për të krijuar me efikasitet një pangram maqedonas e bën atë një konkurrent serioz për GPT-4o, veçanërisht në kontekstin e punës me gjuhë më pak të përfaqësuara si maqedonishtja. Ky përparim nuk është vetëm një arritje akademike. Ka potencial për të përmirësuar përkthimin automatik, krijimin e përmbajtjes dhe mjetet e përpunimit të gjuhës natyrore për folësit maqedonas. Kjo mund të ketë një gamë të gjerë aplikimesh, nga përmirësimi i shërbimeve digjitale deri te ruajtja dhe promovimi i gjuhës maqedonase në epokën digjitale. Ndërsa teknologjia vazhdon të përparojë, do të jetë emocionuese të shohim se si këto modele vazhdojnë të evoluojnë dhe se si aftësitë e tyre do të ndikojnë në ndërveprimin tonë me gjuhën dhe teknologjinë. Tani për tani, duket se Claude arrin të “thyejë shtyllën kurrizore” të sfidës së pangramit maqedonas, duke vendosur një standard të ri në fushën e inteligjencës artificiale dhe përpunimit të gjuhës natyrore.

Branko Përlja

Branko Përlja është anëtar i Shoqatës së Shkrimtarëve të Maqedonisë (SHKM) dhe Shoqatës së Gazetarëve të Maqedonisë (SHGM). Ai u diplomua në Fakultetin e Artit dhe Dizajnit në Universitetin Evropian. Ai ka botuar më shumë se 15 vepra si shkrimtar, dhe shkruan me pseudonimin Bert Stein. Ai është themeluesi i portalit arno.mk, si dhe grupet "Jepi, mos hidh" dhe "Mos hidh, mos ndot", përmes të cilit ai punon për të rritur ndërgjegjësimin për riciklimin, ripërdorimin dhe zvogëlimin e përdorimit në mënyrë që të ruhet mjedisi.