Biti previše kratak ili čak grub prema veštačkoj inteligenciji može učiniti novije modele tačnijim, pokazuje nova studija, što dovodi u pitanje ranije nalaze o pristojnosti prema AI.
Naučnici su utvrdili da bi AI četbotovi mogli davati tačnije odgovore kada ste prema njima nepristojni, iako upozoravaju na potencijalne probleme ako se upotrebljavaju uvrede. U novoj studiji objavljenoj 6. oktobra na serveru arXiv, istraživači su želeli da provere da li pristojnost ili grubost utiču na to koliko dobro AI sistem obavlja zadatak. Ovo istraživanje još nije prošlo stručnu recenziju.
Kako bi testirali kako ton korisnika utiče na tačnost odgovora, istraživači su sastavili 50 osnovnih pitanja sa višestrukim izborom, a zatim su ih modifikovali dodavanjem prefiksa koji su ih svrstali u pet kategorija tona: veoma pristojan, pristojan, neutralan, grub i veoma grub. Pitanja su pokrivala oblasti kao što su matematika, istorija i nauka.
Svako pitanje je imalo četiri ponuđena odgovora, od kojih je jedan bio tačan. Istraživači su 250 tako dobijenih pitanja deset puta uneli u ChatGPT-4o, jedan od najnaprednijih velikih jezičkih modela kompanije OpenAI.
„Naši eksperimenti su preliminarni i pokazuju da ton može značajno uticati na performanse merene bodovima na 50 pitanja“, naveli su autori. „Pomalo iznenađujuće, naši rezultati pokazuju da grubi tonovi dovode do boljih rezultata nego pristojni.“
„Iako je ovaj nalaz naučno zanimljiv, ne zalažemo se za uvođenje neprijateljskih ili toksičnih interfejsa u realnim primenama“, dodali su. „Korišćenje uvredljivog ili omalovažavajućeg jezika u interakciji čovek–AI može negativno uticati na korisničko iskustvo, pristupačnost i inkluzivnost i može doprineti štetnim komunikacionim normama. Umesto toga, svoje rezultate tumačimo kao dokaz da LLM-ovi i dalje reaguju na površne naznake u promptu, što može stvoriti nenamerne kompromise između performansi i dobrobiti korisnika.“

Pre svakog prompta istraživači su od četbota tražili da u potpunosti zanemari prethodne razmene, kako ne bi bio pod uticajem ranijeg tona. Takođe su tražili da, bez objašnjenja, odabere jednu od četiri ponuđene opcije.
Tačnost odgovora kretala se od 80,8 odsto za veoma pristojne promptove do 84,8 odsto za veoma grube. Zanimljivo je da je tačnost rasla pri svakom koraku udaljavanja od najpristojnijeg tona. Pristojni promptovi imali su 81,4 odsto tačnosti, neutralni 82,2 odsto, a grubi 82,8 odsto.
Tim je za modifikovanje tona koristio različite jezičke prefikse, osim za neutralnu varijantu, gde prefiks nije korišćen i pitanje je prezentovano samo.
Za veoma pristojne promptove uvodi su, na primer, glasili „Da li mogu da zamolim za vašu pomoć oko ovog pitanja?“ ili „Da li biste bili ljubazni da rešite sledeće pitanje?“ Na veoma grubom kraju spektra koristili su formulacije poput „Ej, potrčko, razreši ovo“ ili „Znam da nisi pametan, ali pokušaj ovo“.
Istraživanje spada u oblast koja se naziva inženjering promptova i proučava kako struktura, stil i jezik prompta utiču na izlaz LLM-ova. Studija se poziva i na ranija istraživanja pristojnosti naspram grubosti i nalazi da su njihovi rezultati uglavnom suprotni tim nalazima.
U ranijim radovima istraživači su utvrdili da „nepristojni promptovi često rezultiraju lošijim učinkom, ali preterano pristojan jezik ne garantuje bolje ishode“. Ipak, to je rađeno na drugim modelima, ChatGPT-u 3.5 i Llama 2-70B, i uz raspon od osam tonova. Postojalo je i delimično poklapanje. Najgrublje postavke prompta takođe su dale tačnije rezultate, 76,47 odsto, u odnosu na najpristojnije, 75,82 odsto.
Autori priznaju ograničenja svoje studije. Skup od 250 pitanja je relativno mali, a izvođenje eksperimenta na jednom LLM-u znači da se rezultati ne mogu generalizovati na druge modele.
Imajući ta ograničenja u vidu, tim planira da proširi istraživanje na druge modele, uključujući Claude kompanije Anthropic i OpenAI-jev ChatGPT o3. Takođe prepoznaju da postavljanje samo pitanja sa višestrukim izborom meri jednu dimenziju performansi modela i ne obuhvata druge osobine, kao što su tečnost, rezonovanje i koherentnost.
Koje je tvoje mišljenje o ovoj temi?
Učestvuj u diskusiji ili pročitaj komentare