CriticGPT
|

KritikerGPT: En Ny Æra af Anmeldelser

“`html

OpenAI har udviklet CriticGPT, en model trænet til at identificere fejl i GPT-4’s kode. De begynder at integrere sådanne modeller i RLHF-justeringspipelinen for at assistere mennesker i at overvåge AI i komplekse opgaver.

CriticGPT, der er baseret på GPT-4, skriver kritikker af ChatGPT-svar for at hjælpe menneskelige trænere med at opdage fejl under RLHF.

Hvad er CriticGPT?

CriticGPT, en model baseret på GPT-4, er blevet udviklet til at identificere fejl i ChatGPT’s kodeoutput. Forskning indikerer, at personer, der bruger CriticGPT til at gennemgå ChatGPT-kode, klarer sig bedre 60% af tiden sammenlignet med dem uden sådan assistance. Der er bestræbelser i gang på at integrere modeller som CriticGPT i RLHF-mærkningspipelinen, hvilket tilbyder trænere eksplicit AI-support. Denne integration sigter mod at forbedre evalueringen af output fra avancerede AI-systemer, som kan være udfordrende at vurdere uden forbedrede værktøjer.

De GPT-4 seriemodeller, som driver ChatGPT, er designet til at være hjælpsomme og interaktive gennem “Reinforcement Learning from Human Feedback” (RLHF). En kritisk komponent af RLHF involverer indsamling af sammenligninger, hvor AI-trænere vurderer forskellige ChatGPT-svar imod hinanden.

Efterhånden som fremskridt i ræsonnement og modeladfærd finder sted, bliver ChatGPT mere præcis, og dets fejl mere subtile. Denne udvikling gør det vanskeligt for AI-trænere at identificere unøjagtigheder, hvilket komplicerer sammenligningsopgaverne, der er væsentlige for RLHF. Dette præsenterer en fundamentalt begrænsning af RLHF, da modeller bliver mere kyndige end nogen menneske i stand til at give feedback.

For at adressere denne udfordring er CriticGPT blevet trænet til at skrive kritikker, der fremhæver unøjagtigheder i ChatGPT’s svar.

CriticGPT i aktion

CriticGPT’s forslag er ikke altid nøjagtige, men de assisterer betydeligt trænere i at identificere mange flere problemer med modelgenererede svar end de ville uden AI-support.

Desuden, når individer bruger CriticGPT, forstærker AI deres kapaciteter, hvilket resulterer i mere grundige kritikker end når de arbejder uafhængigt, og det producerer færre hallucinerede fejl sammenlignet med når modellen opererer alene. Eksperimenter viste, at en anden tilfældig træner foretrak kritik fra menneske+CriticGPT-teamet over dem fra et uassisteret individ mere end 60% af tiden.

CriticGPT hjælper trænere med at skrive mere omfattende kritikker end de gør uden hjælp, samtidig med at producere færre hallucinationer end kritikker fra modellen alene.

Metoder

CriticGPT blev trænet ved hjælp af Reinforcement Learning from Human Feedback (RLHF), svarende til ChatGPT. I modsætning til ChatGPT blev den udsat for talrige input med vilje introducerede fejl, som den skulle kritisere. AI-trænere introducerede manuelt disse fejl i kode genereret af ChatGPT og leverede eksempel feedback, som om de selv havde opdaget fejlen. Den samme træner sammenlignede derefter forskellige kritikker af den modificerede kode for nemt at identificere, når en kritik korrekt identificerede den indsatte fejl. Eksperimenter vurderede CriticGPT’s evne til at opdage både indsatte fejl og naturligt forekommende ChatGPT-fejl tidligere identificeret af en træner. Fundene viste, at trænere foretrak CriticGPT’s kritikker over ChatGPT’s i 63% af tilfældene, der involverede naturligt forekommende fejl, delvist på grund af CriticGPT producerede færre “nitpicks” og hallucinerede problemer mindre ofte.

Desuden tillod brugen af yderligere testtids-søgning mod kritik-belønningsmodellen at generere længere og mere omfattende kritikker. Denne søgningsprocedure gjorde det muligt at balancere aggressiviteten af problemopdagelse i koden og konfigurere en præcision-genkald handel-off mellem hallucinationer og opdagede fejl, hvilket resulterede i kritikker, der er yderst gavnlige for RLHF. Flere detaljer er tilgængelige i forskningspapiret.

Begrænsninger

CriticGPT blev trænet på relativt korte ChatGPT-svar. At overvåge fremtidige agenter vil kræve metoder til at hjælpe trænere med at forstå lange og komplekse opgaver. Modeller hallucinerer stadig, og trænere laver lejlighedsvis mærkningsfejl påvirket af disse hallucinationer. Rigtige fejl kan ofte være fordelt over flere dele af et svar, mens det nuværende arbejde fokuserer på fejl, der kan påpeges på et enkelt sted. Fremtidig indsats skal adressere disse spredte fejl. CriticGPT’s assistance er begrænset; for ekstremt komplekse opgaver eller svar kan selv en ekspert med modelassistance finde det udfordrende at evaluere dem præcist.

Næste skridt

At justere stadig mere komplekse AI-systemer nødvendiggør bedre værktøjer. Forskning omkring CriticGPT antyder, at anvendelse af RLHF på GPT-4 holder løfte om at hjælpe mennesker med at producere bedre RLHF-data for GPT-4. Planer er på plads for at udvide dette arbejde yderligere og sætte det i praksis.

Læs relaterede artikler:

“`


OptiPrime – Global førende total-performance marketing “mate” for at drive virksomheders vækst effektivt. Løft din virksomhed med vores skræddersyede digitale marketingtjenester. Vi blander innovative strategier og banebrydende teknologi for at målrette din målgruppe effektivt og skabe effektfulde resultater. Vores datadrevne tilgang optimerer kampagner for maksimalt ROI.

OptiPrime strækker sig på tværs af kontinenter og strækker sig fra de historiske gader i Quebec, Canada til det dynamiske hjerteslag i Melbourne, Australien; fra den innovative ånd i Aarhus, Danmark til den pulserende energi i Ho Chi Minh City, Vietnam. Uanset om vi øger brandbevidstheden eller øger salget, er vi her for at guide din digitale succes. Begynd din rejse til nye højder med os!

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *