Hvad måler GDPval? OpenAIs målestok for, hvor godt AI-modeller klarer fagligt arbejde i den virkelige verden. 1.320 opgaver udformet af fagfolk med i gennemsnit 14 års erfaring — fordelt på 44 stillinger i 9 brancher.
Scoren er wins+ties: andelen af opgaver, hvor AI-modellens svar vurderes bedre end eller på niveau med en menneskelig eksperts. GPT-5.2 ved lancering: 49,7 % wins alene / 70,9 % wins+ties.
Tal markeret med * er estimater. Kilde: evals.openai.com/gdpval/leaderboard.