Intervju o novoj seriji modela o1 s razvojnim timom ChatGPT

U sljedećem intervjuu, Bob McGrew, voditelj istraživačkog tima u OpenAI-u, govori sa svojim timom o nedavno lansiranim o1 i o1 Mini serijama modela. U njemu nude zanimljive uvide u razvoj, rad i specifičnosti ovih novih modela.

Bob: Što je točno o1?

Programer: S novom serijom o1 lansiramo liniju modela koji se svojim pristupom razlikuju od prethodnih verzija, poput GPT-4. o1 je posebno takozvani model “rezoniranja”, što znači da dublje razmišlja o pitanju prije nego što odgovori. Cilj je dati kvalitetnije odgovore. Trenutno imamo dva modela: o1 Preview, koji omogućuje prvi uvid u novi smjer, i o1 Mini, kompaktniju i bržu verziju.

Bob: Zvuči zanimljivo! Ali što točno mislite pod “rezoniranjem”?

Razvojni programer: jednostavan način za objašnjenje razmišljanja je da ga usporedite s različitim vrstama zadataka. Postoje pitanja na koja odmah znate odgovor, poput “Koji je glavni grad Italije?” — Rim — ne trebaš puno razmišljati. Ali za složenije zadatke, poput pisanja poslovnog plana ili rješavanja zagonetke, potrebno vam je vrijeme za razmišljanje. Sve je u pretvaranju vremena u bolje rezultate, a to je upravo ono što o1 omogućuje dubljim razmišljanjem.

Bob: Koliko dugo radiš na ovom modelu?

Programer: Radimo na tome već neko vrijeme. Izvorno smo bili vrlo inspirirani rezultatima AlphaGo-a i bili smo snažno uključeni u Deep Reinforcement Learning. Međutim, s vremenom smo shvatili da bi nam kombinacija učenja s potvrđivanjem i nadziranih pristupa omogućila da postignemo puno više. Bilo je mnogo malih prekretnica, a na kraju su svi ti napori doveli do razvoja o1.

Bob: Je li tijekom ovog procesa bilo “eureka” trenutka?

Programer: O da, definitivno! Jedan od ključnih trenutaka bio je kada smo uvježbali model s većom računalnom snagom i po prvi put uočili da ne samo da generira koherentne nizove misli, već je zapravo počeo formulirati složene lance rezoniranja. Još jedan veliki trenutak bio je kada smo otkrili da model, kroz učenje s pojačanjem, može razviti i poboljšati vlastite tokove misli, umjesto da se oslanja isključivo na unaprijed definirano ljudsko razmišljanje. To je bila prava prekretnica.

Bob: Siguran sam da si i ti imao nekih prepreka na tom putu. Koji su bili najveći izazovi?

Programer: Treniranje velikih modela nevjerojatno je izazovno. Bezbrojni su čimbenici koji mogu poći po zlu, a čini se da uvijek pokušavamo modele održati u toj osjetljivoj ravnoteži između uspjeha i neuspjeha. Zamislite da letite raketom prema Mjesecu: jedan mali pogrešan kut i promašili ste cilj. Ovdje je slična stvar — pronaći pravi balans je izuzetno teško.

Bob: To zvuči kao puno strpljenja i napornog rada. Jesu li postojali neki specifični testovi koji su dovodili u pitanje modele?

Programer: Da, neko sam vrijeme stalno postavljao pitanje “Koliko sati ima godina?”. Čini se jednostavno, ali prethodni modeli poput GPT-3 često nisu uspjeli odgovoriti na to pitanje. o1 je konačno savladao ovu vrstu pitanja nakon godinu dana intenzivnog rada. Gotovo bih volio da sam ručno kodirao odgovor!

Bob: Kako vi osobno koristite model iz dana u dan?

Programer: Često ga koristim za programiranje. Uz o1, mogu se usredotočiti na definiranje problema umjesto da sam pišem kod. Također je velika pomoć za otklanjanje pogrešaka. Dajem mu poruku o pogrešci i on odmah predlaže korisne pristupe što pokušati sljedeće.

Razvojni programer: Za mene je to izvrstan suputnik za razmišljanje. Pomaže strukturirati nejasne ideje i razviti različite pristupe rješenjima.

Bob: Također ste razvili o1 Mini. Koja je bila motivacija iza ovoga?

Programer: o1 Mini stvoren je kako bi o1 filozofiju približio široj publici. Puno je jeftiniji za korištenje i brži. Iako nema sav uvid kao o1 Preview, još uvijek zadržava fokus na zdravom razmišljanju. Cilj je bio stvoriti pametno i pristupačno rješenje koje još uvijek zadržava mnoge prednosti glavnog modela.

Bob: Puno ste govorili o tehničkim izazovima. Što vas motivira da nastavite?

Programer: Za mene je nevjerojatno fascinantno vidjeti kako se inteligencija izražava u različitim oblicima. S o1 stvaramo temelje za modele koji mogu mnogo dulje i dublje razmišljati o problemima — ne samo nekoliko minuta ili sati, već možda jednog dana mjeseci ili godine. To je za mene uzbudljiva perspektiva.

Programer: Volim kada tehnologija poboljšava živote ljudi. Ako naši modeli zapravo mogu riješiti praktične probleme kroz razmišljanje, onda smo postigli nešto sjajno.

Bob: Osjećam strast u svakome od vas. Želite li još nešto poručiti slušateljima?

Programer: Svatko od nas uložio je puno truda u ovaj projekt. Iako je riječ o algoritmima i hardveru, na kraju su ljudi i suradnja ti koji te inovacije čine mogućima. To je nešto što nikada ne smijemo zaboraviti.

Bob: Sjajno zatvaranje. Hvala vam puno na vašem vremenu i čestitamo na pokretanju o1.

Programer: Hvala, Bob!

Cijeli intervju s razvojnim timom dostupan je na engleskom jeziku na YouTubeu putem sljedeće poveznice: Interview about the new o1 model series.

Intervju o novoj seriji modela o1 s razvojnim timom ChatGPT

Ostale objave: