G80是首款支持Unified shader(统一渲染架构)的DX10显卡,NVIDIA方面把这种架构下面的单元称之为Streaming Processors,同样的技术特性也当然应用在G84/G86当中。关于更多的技术介绍可以参看《揭开神秘面纱 G80深入解剖国内详测》。下面是部分主要技术分析。

Unified shader架构
分离架构不堪重负
传统的独立渲染架构注定草丛或者树叶是由庞大数量的多边形构成,对GPU的顶点着色器(Vertex Shader)与像素着色器(Pexel Shader)提出严酷要求,此时如果游戏中,像素着色器(Pexel Shader)并不需要太多像素操作的话,GPU中大规模的像素渲染则被闲置而顶点模块处于不堪重负状态。统一渲染架构就可以帮我们解决上述硬件资源的限制,统一渲染架构也尽量降低了着色器(Shader)单元的闲置率。在不同应用程序和游戏中,顶点着色器和像素着色器的需求比例不尽相同, 如果使用统一渲染架构的话,GPU里面的顶点着色器和像素着色器的比例是固定。显然此时统一渲染的实际适应性更强,以上例子就是很好地提升GPU的硬件使用率,尽量避免shader空闲的情况发生。
Geforce 8系列采用统一架构:

DX10的统一渲染相当灵活
眼下成熟的PS/VS分离模式下,顶点渲染和像素渲染各自独立进行,而且顶点渲染和像素渲染一旦当架构确定下来,顶点/像素单元的比例就会完全固定,也就是类似于NVIDIA的G71和ATI的R580架构。虽然此种架构好处就是让设计者更为简便而且相当成熟,而且性能都得到显而易见的提升。但微软认为这种分离渲染架构不够灵活,不同的GPU,其像素渲染单元和顶点渲染单元的比例不一样,大大限制了开发人员自由发挥的空间。不同的应用程序和游戏对像素渲染和顶点渲染的需求不一样,导致GPU的运算资源得不到充分利用。因此,微软在DirectX 10中提出了统一渲染架构概念,在通用和独立的着色器(Shader)单元中可以执行不同的着色器程序,包括顶点着色器与像素着色器。
相对顶点渲染来说,像素渲染将面临大规模使用纹理所带来的材质延迟,这是统一渲染架构急待解决的问题。不过在Geforce880 GPU里面,这种情况得到很大的改善,分组的steam processor都用联立一定数量的纹理单元和L1/L2高速缓存。

DX10拥有夸张的处理指令能力
DX10中新增的Shader Modle 4.0无论是顶点着色器还是像素着色器的指令,最大指令长度相当于Shader Modle 3.0的128倍(64K),越长越复杂的指令意味着产生更真实的画面,Shader Modle 4.0的寄存器激增到4096个,Constant寄存器亦使用16×4096方式。input寄存器则采用16/32规格,以上指标都比以前的DirectX有明显的改进。Shader Modle 4.0允许程序员在渲染物体时使用128个纹理,而DirectX 9只能提供4/16规格,更多的纹理意味着物体表面精度更真实,游戏开发者拥有更广泛的选择。
Geforce 8系列一些主要的新改进:
传统管线与统一渲染模式对比

DX10明显优胜不少
Geforce 8800 GPU的设计有四大目标:显而易见的超过当代GPU、提升图像质量、提供强大的物理和浮点处理性能,适应DirectX的发展推出新概念的GPU模型。
传统的管线渲染,在不同种类属性的顶点里面包括多种对需要渲染场景的信息,线性缓冲区的初始化引擎自上而下的经过顶点着色渲染和像素着色和像素管线之后,最后被写进祯缓冲区。而采用了统一渲染架构设计之后,Geforce8800 GPU可以有效的减少管线的重复循环的次数,将传统管线自上而下的线性顺序变成连续的循环导向的过程。数据经由统一架构的核心过滤后作为输出写进去寄存器,同时返回到渲染核心再进行下次操作。
Geometry shader

全新的Geometry Shader
另外,在DirectX 10中,微软还为我们带来了一个名为Geometry Shader的新版“Shader”,这个新版Shader可以处理分担顶点着色渲染和像素着色渲染等不同任务。新的Geometry Shader的作用就是对每个顶点数据临近的数据进行Vertex函数处理,类似数据操作的点来进行计算,而这种函数处理直接关系到整个渲染模型的形状。也就是说Geometry Shader可以快速地将模型类似的顶点结合起来进行快速运算,虽然其操作不会象像素着色渲染那样的进行完整的操作,只是处理器单个顶点的相关函数操作,但是这种操作却可以确定整个模型的物理形状,这将大大加速处理器速度,因为其它像数单元将不再去需要判定数据所存在的位置,而只是需要简单的为特定区域进行操作就可以了。此外,Geometry Shader中还具备一个被称为Stream Out的技术,这种技术允许GPU可以重复利用已经计算的结果(允许继续由Vertex Shader数据来调用处理好的结果),从而减少计算:

GeForce 8800GTX拥有多达128个Stream Out单元
GeForce 8系列最重大革新Streaming Processors

在Geforce 8800 GPU的统一渲染架构里面,Streaming Processors超标量流处理器(SPs)是最为核心的单位,Geforce 8800GTX拥有128个streaming processor,运行在1350Mhz的频率下。每个streaming processor均能处理vertex、pixel、geometry等操作,是一个通用的浮点处理器。 这些浮点处理器都可以随时有计划的编排分组成不同的工作量。streaming processors可以处理几何运算,大大减轻了CPU在几何运算的负载。GPU分派器和控制逻辑可以动态的指派streaming processpors进行vertex、pixel、geometry等操作,因为他们是通用的。显然unified shader设计可以建立更加平衡的shader工作机制,但是传统的pipeline定义不再适用,在未来,可能其他特性的预算也可以通过unified streaming processor去完成。
6.Steam Processing

超标量流处理器则可以更高效地优化像数引擎
GeForce 8800的另一个非常关键技术特性是采用了大量的超标量流处理器(Stream Processors)对场景进行处理,此前的GPU采用的超线程处理方式(Multi-threading)由于必须保存所有的state信息,因而需要更多的晶体管数,所以成本非常高昂,这对于成本控制、压缩芯片面积成为了累赘。
超标量流处理器则可以更高效地优化像数引擎,它可以处理流数据,同样输出一个流数据,而这个输出的流数据可以应用在其它stream processors里面,流处理器可以成组或者大数量的运行,从而大幅度提升了并行处理能力。每个流处理器当中都有专门高速单元负责解码和执行流数据。片载缓存是一个典型的采用流处理器的单元,它可以迅速输入和读取数据从而完成下一步的渲染。
而其他一些新技术包括:Early-Z技术、NVIDIA Quantum Effects physics、Vista、XHD和PureVideo HD等等也有加入到G84/G86当中。下面进入本次测试的8600GT产品总体介绍:
| ·今日硬件报价 |
·[广州]ATI统一低端市场!微星HD3650杀2XX ·[北京]前后通透 Antec个性机箱A300新品到货 ·[北京]全民散热 ANTEC独特的功放散热架 ·[上海]王者风范 丽台GTX280最新价4380元 ·[上海]绝色本色 三星22寸旗舰T220现售2299 ·[深圳]不给19寸活口 明基20寸双接口1299 ·[深圳]索尼代工?!台电20速刻录机劲爆199 |
||||||||||||||||||||||
| ·热门硬件排行榜 |
| ·频道精选 |
·[导购] 步入成熟 16款20宽LCD大型导购下篇 ·[评测] DDR3竟落败 映众8600GT宽屏版详测 ·[专题] IT话题:399元主板对行业影响专题 ·[专题] IT话题:IGP是否会影响低价GPU市场 |
|||||||||
| ·今日推荐 |
·最喜爱的20大IT品牌系列评选活动 ·创·享清高2008年索尼春季新品发布会 ·抗震救灾 软件行业在行动! ·“我是绿行着”IT世界网联合MSN环保有奖活动 |
|||||||||