Autor: Sebastian Wiśniewski (NetCop)
112
Strona 2 - Architektura
Architektura

Podobnie jak w RV780, tak i w RV870 mamy podział na bloki SIMD, których tutaj jest dwa razy więcej, bo aż 20. Każdy taki blok SIMD składa się z 16-tu 5-cio wątkowych procesorów o łącznej liczbie 80 procesorów strumieniowych (SP) z własną lokalną pamięcią cache L1, układem logicznym odpowiedzialnym za kontrolę i rozdział wątków oraz 4 dedykowane jednostki teksturujące z pamięcią cache. Łącznie jest tam 1600 procesorów strumieniowych (320x5) i 80 jednostek teksturujących.
Silnik graficzny

Ta część układu odpowiada za przygotowanie sceny do renderingu. To tutaj znajdują się rastry i teselator, który teraz dostępny jest dla programistów z poziomu API DirectX 11 przy użyciu Hull i Domain Shaderów. Teselator na kartach ATI ma już długą historię jednak był on praktycznie martwy. Wraz z nadejściem DirectX 11 to się w końcu zmieni.
Procesor wielowątkowy

Procesor wielowątkowy o znanej nam już budowie. Składa się z 4 rdzeni strumieniowych zwykłych i jednego o specjalnych funkcjach. Oczywiście teraz obsługuje on już wszystkie instrukcje z DirectX 11.

Obliczenia GPGPU zgodne z Direct Compute 11 i OpenCL 1.0 będą wykonywane przez każdy z dwudziestu bloków SIMD. Ich całkowita wydajność to 2,7 Teraflopa dla obliczeń z pojedynczą precyzją i 544 Gigaflopy dla podwójnej precyzji.
Jednostki teksturujące

Ilość jednostek teksturujących podwoiła się i teraz jest ich 80. Znacznie przyspieszono też przepustowości wewnątrz tych jednostek. W RV780 pamięć cache dla tekstur pracuje z prędkością 480GB/s, w RV870 jest to już 1TB/s. Zwiększyła się też szybkość przesyłania danych pomiędzy cache L1 i L2. Wcześniej było to 384GB/s teraz już 435GB/s, a więc nie tylko podwojono ilość jednostek teksturujących ale jeszcze przyspieszono ich działanie. Oczywiście TMU obsługują już wszystkie funkcje zgodne z DirectX 11.

Warto jeszcze wspomnieć, że usprawniono algorytm filtrowania anizotropowego i uzyskano jeszcze lepszą jakość bez pogorszenia jego wydajności.
Jednostki renderujące RBE

RBE odpowiada nam za finalne wykończenie renderowanej sceny w tym za wygładzanie krawędzi. Ilość jednostek RBE względem RV770 została podwojona i w każdym aspekcie ich działania mamy dwukrotnie większą wydajność względem serii R4800.
Kontroler pamięci

Kontroler pamięci na pierwszy rzut oka nie uległ zmianie. Wciąż jest to układ otaczający rdzeń obliczeniowy o szerokości magistrali 256 bitów. Potrafi on współpracować z pamięciami GDDR5 o maksymalnej przepustowości 5Gbps. Jest jednak pewna, dość ważna zmiana, a mianowicie teraz kontroler ten potrafi płynnie przełączać taktowanie i napięcia pamięci dzięki czemu możliwa będzie znaczna redukcja poboru prądu w trybie 2D. Wysoki pobór prądu w tym trybie był jedną z głównych wad kart z serii HD 4000.
