OpenAI oficjalnie zaprezentował GPT-5.2, najnowszą wersję swojego flagowego modelu, zaprojektowaną z myślą o pracy profesjonalnej, długotrwałych agentach oraz realizacji złożonych, wieloetapowych projektów. To kolejny etap rozwoju serii GPT-5, ale jednocześnie wyraźny sygnał zmiany ambicji: od uniwersalnego chatbota w stronę pełnoprawnego narzędzia operacyjnego dla firm, zespołów i inżynierów.
„Przedstawiamy GPT-5.2 — naszą najbardziej zaawansowaną serię modeli przeznaczoną do zastosowań profesjonalnych.”

Według danych OpenAI użytkownicy ChatGPT Enterprise już dziś deklarują oszczędność 40–60 minut dziennie, a najbardziej zaawansowani użytkownicy nawet 10 godzin tygodniowo. GPT-5.2 został zaprojektowany właśnie po to, aby tę przewagę jeszcze zwiększyć — nie poprzez drobne poprawki, ale przez realne usprawnienie pracy z dokumentami, danymi, kodem i narzędziami. Nieoficjalnie mówi się też, że szybkie wprowadzenie kolejnej wersji modelu jest odpowiedzią na rosnącą siłę Gemini 3 od Google'a.
Model lepiej radzi sobie z arkuszami kalkulacyjnymi, prezentacjami, analizą danych, kodowaniem i przetwarzaniem długich kontekstów. Zasadnicza różnica polega jednak na tym, że GPT-5.2 myśli w kategoriach całych projektów, a nie pojedynczych odpowiedzi.
OpenAI podkreśla, że GPT-5.2 ustanawia nowy poziom jakości w testach symulujących realną pracę zawodową. W benchmarku GDPval, obejmującym zadania z 44 zawodów i 9 kluczowych branż gospodarki, model osiąga wyniki na poziomie ekspertów lub je przewyższa.
„GPT-5.2 Thinking jako nasz pierwszy model uzyskał wyniki na poziomie eksperta lub wyższe w 70,9% zadań GDPval.”
Co istotne, zadania te nie dotyczą abstrakcyjnych pytań, lecz konkretnych rezultatów: prezentacji sprzedażowych, modeli finansowych, harmonogramów czy analiz operacyjnych. W połączeniu z nadzorem człowieka GPT-5.2 może realnie wspierać codzienną pracę zespołów wiedzy, skracając czas realizacji i obniżając koszty.
OpenAI w przypadku GPT-5.2 wyjątkowo mocno akcentuje twarde metryki wydajności, odnosząc je do rzeczywistych zastosowań zawodowych, a nie abstrakcyjnych testów akademickich. Najważniejsze dane pokazują wyraźny skok jakościowy względem GPT-5.1.
W benchmarku GDPval, który obejmuje precyzyjnie zdefiniowane zadania z zakresu pracy opartej na wiedzy w 44 zawodach i 9 kluczowych branżach gospodarki, model GPT-5.2 Thinking osiągnął poziom ekspercki lub wyższy w 70,9% zadań. Dla porównania wcześniejszy GPT-5 Thinking osiągał taki poziom w niespełna 39% przypadków. Co istotne, GPT-5.2 realizował te zadania ponad 11 razy szybciej niż ludzie, przy koszcie poniżej 1% kosztu pracy eksperta, według szacunków OpenAI.
W obszarze programowania i inżynierii oprogramowania GPT-5.2 ustanowił nowy rekord w teście SWE-Bench Pro, osiągając 55,6% skuteczności w realistycznych zadaniach obejmujących wiele języków i wymagających modyfikacji istniejących repozytoriów kodu. W teście SWE-Bench Verified model osiągnął 80% skuteczności, co potwierdza znaczną poprawę w debugowaniu, refaktoryzacji i wdrażaniu poprawek produkcyjnych.
Pod względem faktyczności i niezawodności odpowiedzi GPT-5.2 Thinking generował odpowiedzi zawierające błędy w 6,2% przypadków, podczas gdy GPT-5.1 Thinking osiągał poziom 8,8%. Oznacza to redukcję błędów o 38%, co ma kluczowe znaczenie w zastosowaniach analitycznych, decyzyjnych i badawczych.
W testach długiego kontekstu GPT-5.2 osiąga niemal 100% skuteczności w wariancie MRCRv2 z czterema „igłami” przy kontekście sięgającym 256 tysięcy tokenów, znacząco przewyższając GPT-5.1 w zadaniach wymagających integracji informacji rozproszonych w bardzo dużych dokumentach.
Równie istotne są wyniki w obszarze wizji i analizy interfejsów. W benchmarku CharXiv Reasoning GPT-5.2 Thinking osiągnął 88,7% dokładności, wobec 80,3% w GPT-5.1. Jeszcze większą różnicę widać w teście ScreenSpot-Pro, gdzie dokładność wzrosła z 64,2% do 86,3%, co bezpośrednio przekłada się na lepsze rozumienie zrzutów ekranów, paneli administracyjnych i wykresów.
Te liczby jasno pokazują, że GPT-5.2 nie jest jedynie szybszą wersją poprzednika, lecz modelem zaprojektowanym do skalowania pracy profesjonalnej, w której liczy się nie tylko jakość odpowiedzi, ale także szybkość, spójność i możliwość realizacji całych procesów end-to-end.
Jednym z najsilniejszych obszarów GPT-5.2 jest kodowanie — zwłaszcza w kontekście pracy agentowej. Model ustanowił nowy rekord w teście SWE-Bench Pro, który sprawdza zdolność rozwiązywania rzeczywistych problemów inżynierii oprogramowania w kilku językach programowania.
Oznacza to lepsze debugowanie kodu produkcyjnego, bardziej spójne refaktoryzacje* i mniejszą liczbę iteracji potrzebnych do wdrożenia funkcjonalnych poprawek. Pierwsi testerzy podkreślają też wyraźną poprawę w pracy z front-endem, w tym z bardziej złożonymi i nietypowymi interfejsami.
„GPT-5.2 stanowi największy skok dla modeli GPT w programowaniu agentowym od czasów GPT-5.”
* Refaktoryzacja (za Wikipedią) - proces wprowadzania zmian w projekcie/programie, w wyniku których zasadniczo nie zmienia się funkcjonalność. Celem refaktoryzacji jest więc nie wytwarzanie nowej funkcjonalności, ale utrzymywanie odpowiedniej, wysokiej jakości organizacji systemu.
Istotną zmianą z punktu widzenia zastosowań profesjonalnych jest spadek halucynacji. OpenAI deklaruje, że w zanonimizowanych zapytaniach do ChatGPT GPT-5.2 Thinking generował odpowiedzi z błędami o 38% rzadziej niż GPT-5.1 Thinking.
„GPT-5.2 Thinking halucynuje mniej niż GPT-5.1 Thinking.”
Dla firm oznacza to większą niezawodność w badaniach, analizach, raportowaniu i podejmowaniu decyzji — choć OpenAI nadal wyraźnie podkreśla konieczność weryfikacji odpowiedzi w krytycznych zastosowaniach.
GPT-5.2 ustanawia nowy standard pracy z długimi dokumentami, osiągając niemal pełną skuteczność w testach wymagających integracji informacji rozproszonych w setkach tysięcy tokenów. To otwiera nowe możliwości w analizie umów, raportów, dokumentacji technicznej czy badań naukowych.
Równolegle znacząco poprawiono rozumienie obrazów, wykresów i interfejsów użytkownika, co ma bezpośrednie znaczenie dla finansów, inżynierii, projektowania i obsługi klienta. Model lepiej rozpoznaje układ elementów, zależności wizualne i kontekst danych graficznych.
GPT-5.2 jest wdrażany w ChatGPT w trzech wariantach:
Modele są dostępne w płatnych planach ChatGPT oraz w API, z nowymi poziomami rozumowania i możliwością lepszego sterowania pracą agentów. Cennik API jest wyższy niż w GPT-5.1, ale OpenAI podkreśla, że koszt osiągnięcia jakości końcowej bywa niższy dzięki większej efektywności tokenów.
GPT-5.2 to nie jest kolejna kosmetyczna aktualizacja. To wyraźny sygnał, że OpenAI przesuwa ciężar z rozmowy na realną produktywność. Model coraz mniej przypomina „chat”, a coraz bardziej uniwersalny silnik pracy wiedzy — od analityki, przez programowanie, po zarządzanie złożonymi procesami. Dla firm to moment, w którym pytanie nie brzmi już, czy używać AI, lecz jak głęboko wbudować ją w codzienne operacje, zanim zrobi to konkurencja. Innymi słowy: napędzany przez giga-korporacje wyścig trwa w najlepsze...
