Sunday, February 8, 2026
spot_imgspot_img

Top 5 This Week

spot_img

Related Posts

Anthropic mora stalno revidirati svoj tehnički test kako ga ne biste mogli prevariti s Claudeom | TechCrunch

Od 2024. godine, Anthropicov tim za optimizaciju performansi daje kandidatima za posao test kako bi se uverio da znaju šta rade. Ali kako su alati za AI kodiranje postajali sve bolji, test je morao dosta da se promijeni kako bi ostao ispred varanja uz pomoć umjetne inteligencije.

Menadžer tima Tristan Hume opisao je historiju izazova na blogu u srijedu. „Svaki novi model Claude nas je primorao da redizajniramo test“, piše Hume. “Kada je dobio isto vremensko ograničenje, Claude Opus 4 je nadmašio većinu ljudskih kandidata. To nam je i dalje omogućilo da razlikujemo najjače kandidate – ali tada je Claude Opus 4.5 čak i njima odgovarao.”

Rezultat je ozbiljan problem pri ocjenjivanju kandidata. Bez ličnog praćenja, ne postoji način da se osigura da neko ne koristi AI da vara na testu — a ako to učini, brzo će se popeti na vrh. “Pod ograničenjima testa za poneti kući, više nismo imali načina da razlikujemo rezultate naših najboljih kandidata od našeg najsposobnijeg modela”, piše Hume.

Pitanje varanja sa umjetnom inteligencijom već izaziva pustoš u školama i univerzitetima širom svijeta, toliko je ironično da se i laboratorije AI moraju pozabaviti time. Ali Anthropic je također jedinstveno dobro opremljen za rješavanje problema.

Na kraju, Hume je osmislio novi test koji je imao manje veze s optimizacijom hardvera, što ga je učinilo dovoljno novim da se podigne na moderne AI alate. Ali kao dio objave, podijelio je originalni test kako bi vidio da li bi neko od čitalaca mogao smisliti bolje rješenje.

“Ako možete najbolje opus 4.5,” piše u postu, “radovali bismo da čujemo vaše mišljenje.”

Preuzeto sa: techcrunch.com

Popular Articles