Історія розвитку графіки NVIDIA. Частина 3: сучасність

Завершуємо історію розвитку графічних процесорів NVIDIA. У минулій частині ми зупинилися на останніх картах покоління DirectX 11. У заключній частині переносимося в сучасність: від перших відеокарт з підтримкою DirectX 12 до наших днів.

GeForce 900: початок епохи DirectX 12

Основою серії GeForce 900 стала архітектура Maxwell, але першими її отримали карти попередньої лінійки – GTX750 і GTX750 Ti. Через затримки з новим техпроцесом NVIDIA довелося використовувати “старі” 28 нм для виробництва чіпів нового покоління. Тому спочатку було вирішено обкатати нову архітектуру на бюджетному чіпі GM107.

З точки зору графічних можливостей, перше покоління Maxwell майже не відрізняється від Kepler. Однак внутрішній устрій чіпів значно перероблено. Це дало змогу домогтися збільшення продуктивності при зниженні енергоспоживання.

GM107 складається з одного GPC, усередині якого п’ять SM. У кожному з них движок Polymorph Engine третього покоління і 128 SP, поділених на чотири розділи. У кожного з розділів свій планувальник, буфер інструкцій і регістровий файл. Блоки, що обслуговують меншу кількість SP, набагато простіші та займають менше місця на чипі – саме тому такий поділ ефективніший. Чип використовує більш швидкий тайловий рендеринг, який полягає в розбитті кадру на плитки. Це потребувало значного збільшення кешу другого рівня.

ГП містить 16 ROP і 40 TMU, а також 640 SP, продуктивність яких підвищилася приблизно на третину порівняно з Kepler. GTX750 Ti має повний чіп, GTX750 – урізаний. Карти оснащуються 1 або 2 ГБ 128-бітної GDDR5 зі смугою пропускання до 86 ГБ/c, але нова архітектура розпоряджається нею ефективніше за минулу.

У вересні 2014 року були випущені GTX980 і GTX970 на базі архітектури Maxwell другого покоління. Вона принесла підтримку DirectX 12.1 і низки нових технологій для ефективної роботи в VR. Основою карт став чіп GM204, що збільшив межу частот до 1.2 ГГц при невисокому енергоспоживанні – не більше 165 Вт.

GM204 має чотири GPC, у кожному з яких чотири SM. Повний чіп містить 64 ROP, 128 TMU і 2048 SP. Використовується 256-бітна шина, пропускна здатність якої сягає 224 ГБ/c. Флагманська GTX980 мала повну версію ГП і 4 ГБ пам’яті. У GTX970 було відключено частину блоків, а шина поділена на 224-бітний і 32-бітний сегменти, внаслідок чого 512 МБ пам’яті із загального обсягу в 4 ГБ працювали повільніше.

AMD до цього часу підтягнула продуктивність серії R9 290 драйверами, і лише в червні 2015 року представила “нових” супротивників картам NVIDIA: R9 390 і R9 390X – перейменовані моделі старої серії зі збільшеним до 8 ГБ об’ємом пам’яті. Втім, і самі GTX970 і 980 на той момент недалеко пішли від GTX780 і 780 Ti. Продуктивності навіть минулих флагманів з лишком вистачало для більшості ігрових проектів, за рідкісними винятками.

У січні 2015 року побачила світ GTX960. Її основою став чіп GM206, що являє собою “половинку” від GM204 зі 128-бітною шиною. Карту випускали у двох варіантах – з 2 і 4 ГБ пам’яті GDDR5. Через півроку було випущено GTX950 з 2 ГБ пам’яті, яка розгубила чверть SM від повного чіпа.

У березні 2015 року був випущений новий король 3D-графіки – GTX Titan X. Він побудований на чіпі GM200. Внутрішня будова порівняно з GM204 не змінилася, але замість чотирьох GPC стало шість. Кратно зросла кількість усіх блоків – у новинки 96 ROP, 192 TMU, 3072 SP і 384-бітна шина пам’яті з пропускною спроможністю в 336 ГБ/c.

Об’єм пам’яті GTX Titan X досяг 12 ГБ, а енергоспоживання – 250 Вт. Через три місяці NVIDIA випускає GTX980 Ti з 6 ГБ пам’яті, але більш доступну за ціною. В її основі – той самий GM200, але злегка урізаний за блоками. AMD відповідає на це новою моделлю R9 Fury X з 4 ГБ пам’яті. Продуктивність обох рішень виявляється близькою, але через малий обсяг пам’яті флагман AMD незабаром здасть свої позиції.

GeForce 1000

Нова серія карт отримала архітектуру Pascal. Вона досить схожа з Maxwell, але принесла відчутне зростання продуктивності завдяки техпроцесу 16 нм, який допоміг збільшити кількість блоків чіпа і досягти більш високих частот. Pascal отримала підтримку асинхронних обчислень DirectX 12 і низку оптимізацій для підвищення продуктивності у VR-режимі.

Першою картою стала GTX1080, випущена в травні 2016 року. В її основі чип GP104, у складі якого чотири GPC. Усередині кожного з них п’ять кластерів текстурної обробки (TPC), які містять по одному SM і блоку Polymorph Engine четвертого покоління. Самі мультипроцесори кардинальних змін не зазнали: як і у випадку з Maxwell, вони мають 128 SP, які поділені на чотири розділи.

Повний GP104 містить 64 ROP, 160 TMU і 2560 SP. Підсистема пам’яті 256-бітна. Тепер її формують вісім 32-бітних каналів, а не чотири 64-бітові, що дозволило використовувати нову GDDR5X. Об’єм пам’яті склав 8 ГБ, а пропускна здатність зросла до 320 ГБ/c. Технологія GPU Boost була оновлена до версії 3.0, яка більш ефективно збільшує частоту залежно від напруги. Частота ГП у бусті перевищила планку в 1700 МГц. Порівняно з попередником карта стала швидшою на дві третини при трохи вищому TDP – 180 Вт.

Слідом чіп GP104 отримала і GTX1070, але кількість активних SP у ній скоротили на чверть. Карта має 8 ГБ звичайної GDDR5. GTX1070 Ti з’явилася у 2017 році. Вона відрізняється від попередниці набагато менш урізаним чіпом. Трохи раніше за неї з’явилися запізнілі конкуренти від AMD – карти Vega 64 і Vega 56. При паритеті за продуктивністю вони мали більш високе енергоспоживання.

У липні 2016 року світ побачила GTX1060, що стала популярною картою середнього цінового сегмента. В її основу ліг чіп GP106 з 1280 SP і 192-бітною шиною пам’яті. Версія карти з 6 ГБ GDDR5 використовує повну версію ГП, а версія з 3 ГБ – урізану по блоках. Пізніше з’явилися GTX1060, засновані на відбракуванні старшого чіпа GP104.

Топовим рішенням цього покоління став чіп GP102, який перевищував можливості GP104 рівно в півтора рази. У його арсеналі шість GPC, 96 ROP, 240 TMU, 3840 SP і 384-бітна пам’ять GDDR5X. У серпні 2016 року був випущений Titan X Pascal зі злегка урізаним чіпом і 12 ГБ пам’яті. У квітні 2017 року з’явилося ще дві карти на основі GP104: Tital XP з повним чіпом, і “громадянська” GTX1080 Ti, у якої, крім чіпа, скоротили шину пам’яті та її обсяг – до 352 біт і 11 ГБ, відповідно. AMD нічого було протиставити цій карті аж до 2019 року, коли були випущені Radeon VII і RX5700XT.

Жовтень 2016 року приніс новинки на бюджетному чипі GP107, який отримав 768 SP і 128-бітну шину пам’яті. Повним чіпом оснащувалася GTX1050 Ti, урізаним – звичайна GTX1050. Крім цього, карти відрізнялися різним об’ємом пам’яті: 4 ГБ у старшої моделі, 2 ГБ у молодшої. Через півтора року лінійку доповнила GTX1050 з 3 ГБ пам’яті. У неї повний чіп, але урізана до 96 біт шина.

У травні 2017 року світ побачила молодша карта нової лінійки – GT1030. В її основу ліг чіп GP108, “половинка” від GP107 з 64-бітною шиною пам’яті. Спочатку використовувалася GDDR5, але пізніше з’явився другий вид карти з DDR4.

GeForce 2000: трасування променів і DLSS

Історія карт NVIDIA RTX починається з архітектури Turing. GeForce 2000 стали першими картами з підтримкою трасування променів і DirectX 12 Ultimate. Для цього треба було внести безліч змін у внутрішній устрій ГП, включно з новими блоками трасування променів і тензорними ядрами.

Першою картою серії стала RTX2080, випущена у вересні 2018 року. Вона побудована на 12 нм чіпі TU104, що містить шість GPC. У кожному з них чотири кластери TPC. Усередині TPC – блок Polymorph Engine і два SM, поділені на чотири розділи з власними блоками управління.

Число SP, що виконують операції з плаваючою комою (FP32), в одному мультипроцесорі скорочено до 64. Компанію їм складають 64 блоки цілочисельних операцій (INT32). За рахунок цього SM може виконувати обидва види розрахунків одночасно, тоді як у минулих архітектурах за раз можна було виконувати лише одну з операцій.

У кожній частині SM є два тензорних ядра другого покоління. Вони забезпечують шумозаглушення при трасуванні променів, а також роботу нової технології масштабування DLSS (а пізніше – і DLSS 2). Один SM містить 64 SP, 8 тензорних ядер і блок RT для трасування променів.

Повний чіп TU104 містить 64 ROP, 192 TMU і 3072 SP. Компанію їм складають 48 блоків RT і 384 тензорних ядра. Ширина і організація шини пам’яті не змінилася з минулого покоління, але замість GDDR5X стала застосовуватися GDDR6, що збільшила пропускну спроможність у півтора раза – до 448 ГБ/c.

RTX2080 має трохи урізаний за блоками чип. У 2019 році на базі TU104 були випущені ще дві відеокарти: RTX2070 Ti і RTX2080 Super. Перша має ГП зі ще більшою кількістю відключених блоків, а друга – повну версію чипа. Об’єднує всі карти однакова пам’ять – 8 ГБ 256-бітної GDDR6.

Конкурент від AMD і цього разу з’явився із запізненням – лише влітку 2019 року. Але, на відміну від минулої затримки, протистояння не вийшло: RX5700XT була повільнішою за RTX2080, не підтримувала трасування променів і технологію DLSS. Однак і її вартість була куди скромнішою.

Трасуванням променів зацікавилося багато розробників ігор. Першою грою з її підтримкою стала Battlefield V, але в ній технологія використовується лише для відображень. Metro Exodus, що стала другою грою з підтримкою трасування, використовує її для освітлення, унаслідок чого картинка перетворюється куди більше.

Через тиждень після RTX2080 була представлена топова карта сімейства – RTX2080 Ti на чіпі TU102. Цей ГП містить рівно в півтора раза більше блоків, ніж TU104, і має 384-бітну шину пам’яті. В основу RTX2080 Ti ліг злегка урізаний чіп із 352-бітною шиною і 11 ГБ пам’яті.

Повний чіп і 12 ГБ пам’яті через три місяці отримала карта Titan RTX. Вона ж стала останньою картою серії Titan. Карти на основі TU102 і TU104 отримали підтримку NVLink – нової технології об’єднання ГП, яка прийшла на зміну SLI.

Через місяць після старших карт світ побачила RTX2070. Її “серце” – молодший TU106, який отримав 2304 SP і 256-бітну шину пам’яті. У січні 2019 року урізана версія TU106 стала основою RTX2060. Вона отримала 192-бітну шину і 6 ГБ пам’яті, на відміну від 8 ГБ у старшої моделі. Випущеній через пів року RTX2060 Super скоротили кількість відключених блоків, повернули повну шину і 8 ГБ пам’яті.

Виробництво чіпів із блоками трасування променів і тензорними ядрами було досить дорогим через великі кристали. Тому NVIDIA вирішила виключити їх з ГП для бюджетних карт: результатом стали чіпи TU116 і TU117. Карти Turing без підтримки трасування променів увійшли в серію GeForce 16xx.

ГП TU116 має отримав 1536 SP укупі з 192-бітною шиною. Першою картою на основі повного чипа стала GTX1660 Ti, випущена в лютому 2019 року. За нею послідувала звичайна GTX1660 із частиною відключених блоків і пам’яттю GDDR5. У жовтні світ побачила GTX1660 Super, що відрізняється від звичайної версії пам’яттю GDDR6. Останньою картою стала GTX1650 Super, яка отримала ще більш урізаний чіп, 128-бітну шину і всього 4 ГБ пам’яті проти 6 ГБ у старших “сестер”.

Молодший TU117 має 896 SP і 128-бітну шину. Повна версія чіпа використовувалася в GTX1650, у якої також є дві версії – з пам’яттю GDDR5 і GDDR6. Урізаний чіп потрапив у GTX1630. Обидві карти мають 4 ГБ пам’яті.

GeForce 3000

Лінійка GeForce 3000 побудована на архітектурі Ampere, яка заснована на попередній Turing, але має кілька важливих відмінностей для досягнення більш високої продуктивності. Незважаючи на більш сучасний техпроцес 8 нм, частоти зросли ненабагато. Моделі нової лінійки підтримують інтерфейс PCI-E 4.0, який укотре подвоює пропускну здатність між картами та системою.

У вересні 2020 року було представлено RTX3080 і RTX3090, в основу яких ліг чип GA102. У нього сім GPC, у кожному з яких по шість блоків TPC. Усередині кожного GPC два мультипроцесори, які зазнали переробки. У їхньому складі блок RT другого покоління, який прискорився вдвічі, і 128 SP двох видів: одна половина працює над обчисленнями з плаваючою комою (FP32), а інша додатково підтримує і цілочисельні (INT32).

Таким чином, в одному SM тепер удвічі більше блоків, що працюють з обчисленнями FP32. З огляду на більшу кількість SM у чипі, обчислювальна потужність GA102 у два з половиною рази перевершує таку в TU102. Тензорні ядра третього покоління стали вдвічі швидшими, але тепер їх удвічі менше – по одному в кожній частині SM. Ядра отримали оптимізації, що прискорюють їхню роботу в певних режимах.

GA102 містить 112 ROP, 336 TMU, 10752 SP, а також 84 RT-блоки і 336 тензорних ядер. Чип має 384-бітну шину. До неї підключається пам’ять GDDR6X, що досягає пропускної здатності в 1 ТБ/c.

Перша версія RTX3080 отримала урізану версію GA102 з 320-бітною шиною і 10 ГБ пам’яті. Старша RTX 3090 оснащується менш урізаним чипом, повною шиною і 24 ГБ пам’яті – ця карта покликана зайняти місце Titan.

Через півтора року на базі GA102 з’являються ще три відеокарти: оновлена RTX3080 з 12 ГБ пам’яті та повною шиною, RTX3080 Ti з таким самим об’ємом і менш урізаним чипом, і RTX 3090 Ti – оновлення RTX3090 з усіма активними блоками в чипі. Пара RTX3090 єдина з нових карт отримала підтримку NVLink. Карти на GA102 здатні споживати понад 350 Вт.

AMD через два місяці відповіла новою серією RX6000. Топові RX6800XT і RX6900XT мають порівнянну продуктивність з RTX3080 і RTX3090, за винятком трасування променів, у якому продукти AMD повільніші. До того ж, перевагою карт NVIDIA була технологія DLSS 2, тоді як AMD покладалася на менш якісну технологію масштабування FSR. Але, як і зазвичай, карти AMD були дешевшими, а недолік у вигляді відсутності DLSS 2 рік потому компенсувала поява порівнянної за якістю FSR 2.

Слідом за “великим” Ampere був випущений скромніший GA104. Шину пам’яті скорочено до 256 біт, а кількість SP – до 6144. Наприкінці 2020 року носієм урізаного чипа стали RTX3070 і RTX3060 Ti з 8 ГБ пам’яті GDDR6. За пів року світ побачила RTX3070 Ti на базі повного чипа і зі швидшою GDDR6X, а у 2022 році з такою пам’яттю з’явився і різновид RTX3060 Ti.

У лютому 2021 виходить RTX3060 із 12 ГБ пам’яті. В її основі злегка урізана версія чипа GA106, що має 3840 SP і 192-бітну шину пам’яті. У 2022 році чип стає основою ще двох карт: RTX3050 і RTX3060 із 8 ГБ пам’яті. В обох 128-бітна шина, а в RTX3050 чип “постраждав” ще більше – активними залишилися всього дві третини блоків. До того ж, молодша карта отримала урізаний інтерфейс PCI-E 4.0 x8.

Наприкінці 2022 року був випущений молодший GA107. Чип має дві третини блоків GA106, і призначений для чергової версії RTX3050.

GeForce 4000: технологія DLSS 3

Карти цієї серії засновані на архітектурі Ada Lovelace, в якій відразу видно “коріння” Ampere. Перенесення на техпроцес 5 нм дало змогу розмістити в чипах більше блоків, а також підвищити їхні частоти. Першу карту серії було випущено в жовтні 2022 року. Нею стала RTX4090, заснована на чипі AD102.

AD102 за внутрішнім устроєм доволі схожий на GA102. Головна відмінність – 12 GPC проти семи у попередника. Інші рівні організації SP не зазнали змін.

Відмінності – всередині. Тензорні процесори належать до четвертого покоління, а блок трасування – до третього. Його робота знову прискорилася вдвічі, і тепер виконується ефективніше завдяки двом новим блокам: рушію мікрокарти непрозорості та рушію зміщеної мікросітки.

Ще однією новинкою став оновлений движок прискорення оптичного потоку. Завдяки йому ГП отримав підтримку нового виду масштабування DLSS 3. До того ж, значно зріс розмір кешу L2. При цьому підсистема пам’яті не змінилася: ті ж самі 24 ГБ 384-бітної GDDR6X з пропускною спроможністю в районі 1 ТБ/c.

Повний AD102 має 192 ROP, 576 TMU і 18432 SP. У ГП 144 RT-блоки і 576 тензорних ядер. У RTX4090 частина блоків відключена, але укупі зі збільшеною на третину частотою чипа, зростання продуктивності порівняно з попередницею сягнуло дворазового. При цьому значно зросло TDP карти. Воно сягнуло 450 Вт, що потребувало встановлення нового роз’єму 12VHPWR для підведення живлення.

RTX4080 отримала власний чіп AD103. Він має 10240 SP і 256-бітну шину пам’яті, але в карті також відключена частина блоків. Модель має 16 ГБ пам’яті GDDR6X. У грудні 2022 року AMD запускає нову лінійку RX7000, топовою моделлю якої стає RX7900XTX. Карту протиставляють RTX4080, що відповідає дійсності – RTX4080 і RX7900XTX близькі одна до одної, не враховуючи трасування променів, яке в AMD так само повільніше.

Утім, RX7900XTX коштує дешевше – адже модель NVIDIA з індексом xx80 вперше отримала чотиризначний доларовий цінник. Однак у RTX4080 є козир у вигляді DLSS 3: з її поширенням розрив продуктивності в нових іграх може стати набагато вищим, поки світ не побачить конкурентна технологія FSR3.

Січень 2023 року приніс із собою RTX4070 Ti – першу карту на AD104. У складі чипа 7680 SP і 192-бітна шина пам’яті. Через три місяці з’явилася і звичайна RTX4070. Вона, на відміну від старшої моделі, використовує неповний чіп із чвертю відключених блоків. Обидві карти оснащуються 12 ГБ GDDR6X.

Запущена в травні 2023 року RTX4060Ti ґрунтується на ГП AD106. Він має 4608 SP і 128-бітну шину пам’яті, але в карті використовується злегка урізана версія чипа. На відміну від старших “сестер”, тут використовується звичайна GDDR6 об’ємом 8 або 16 ГБ. До того ж, чіп обмежений інтерфейсом PCI-E 4.0 x8, як це вже було у випадку з RTX3050.

Наприкінці червня готується до запуску звичайна RTX4060 на іншому чіпі – AD107. Як і в AD106, у нього 128-бітна шина пам’яті та інтерфейс PCI-E 4.0 x8, але в півтора раза менший SP. RTX4060 отримає повну версію чипа, а версія з частиною відключених блоків знайде застосування в майбутній RTX4050.

На цьому історія розвитку графіки NVIDIA закінчується. За 30-річну історію компанії змінилося понад 20 поколінь графічних процесорів, кожне з яких радувало збільшеною продуктивністю і приносило якісь нововведення. Цього гравці чекатимуть і від наступного покоління RTX5000, яке з’явиться не раніше другої половини 2024 року.