当前位置:首页 > 装机升级 > 显卡 > 新闻
GPU的下一场生死斗
  • 2012-11-22 11:59:50
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:王诚
  • 作者:八戒
【电脑报在线】2012已经接近了尾声,图形芯片地位的两大巨头NVIDIA和AMD今年在构架研发上的革新为我们奉献了许许多多的惊喜。如今年AMD以先发制人的28nm制程优势革新了之前40nm性能的缓慢发展,NVIDIA则绝地反击,以开普勒GeForce GTX 680在性能功耗比方面给出有力还击,为玩家们提供了更好的选择性。那么明年接下来会又怎样的动作?

  2012已经接近了尾声,图形芯片地位的两大巨头NVIDIA和AMD今年在构架研发上的革新为我们奉献了许许多多的惊喜。如今年AMD以先发制人的28nm制程优势革新了之前40nm性能的缓慢发展,NVIDIA则绝地反击,以开普勒GeForce GTX 680在性能功耗比方面给出有力还击,为玩家们提供了更好的选择性。那么明年接下来会又怎样的动作?


开普勒”家族的变态怪兽,GK110!

  虽然今年NVIDIA如期地为我们带来了“Kepler(开普勒)”核心,但今年的Kepler架构的重要产品只是“小巧精壮”GK104。那么NVIDIA的“重型武器”在哪里呢?当然是GK110,这才是“开普勒”家族的王者之作,这也是明年NVIDIA为我们带来的惊喜!


   28nm HP工艺下晶体管的怪兽

  我们先不说GK110即将带来什么样的新技术或什么样的性能,单单71亿晶体管相信就令人激动。NVIDIA给出的资料已经基本可以清楚地表明:GK110内部集成了71亿个晶体管!71亿,这个数字比目前全球人口还要多,即便是英特尔IVB架构的晶体管也不过14亿。当然,要让狭小的空间容下71亿个晶体管,28nm工艺当然仍是首选----GK110将采用台积电最新的High-K电介质+金属栅极的28nm制程。

  目前台积电在28nm工艺方面一共有三种主力工艺,分别是“低功耗氮氧化硅电介质工艺”(代号28LP)、“High-K+金属栅极高性能工艺”(代号 28HP)和“低功耗型High-K+金属栅极工艺”(代号28HPL)。其中28HP主打的是高性能,它在核心频率的潜力挖掘以及漏电控制上更为出色。根据NVIDIA要求开普勒的每瓦特双精度性能达到费米的3~4倍来看,GK110的功耗不高于310W,至少也有230W左右。不过,即便是台积电的28nm工艺很给力,但坐拥71亿“子民”的GK110核心面积仍达到550平方毫米,L2缓存从Fermi的768KB、GK104的512KB大幅增加到2MB。


   增强版SMX单元

   对开普勒架构有了解的朋友都知道,在GK104上,英伟达在Fermi费米架构上力推的SM已经不见踪影,取而代之的是SMX单元。


   相对于SM单元,Kepler的SMX单元急剧放大了ALU团簇的整体规模,其ALU总量从过去的32个增加到了192个,并且每个SMX中纹理单元从4个增加到16个。这样的改进为SMX带来了全新的性能表现----新的逻辑设计让Kepler的运算单元拥有了2倍于Fermi的性能功耗比。作为开普勒家族未来的族长,GK110的SMX单元设计仍然与GK104一样都是192个CUDA核心,但SMX数量从GK104的8个增加15个SMX核心,共计拥有2880个CUDA Core。在双精度能力上,GK110相比GK104也有大幅度进步---每组SMX单元增加了4个额外的16-block双精度浮点单元,同时NVIDIA在GK110核心上还进一步放大了与ALU团簇对应的Register---GK110运行的每个线程现在可以分配多达255个32位的寄存器(register),较GK104架构放大了一倍。这大大提升了GK110的双精度性能。根据NVIDIA公布的资料,基于GK110架构K20X在开启14个SMX核心、782MHz的频率下,拥有4.2TFlops的单精度性能和1.4TFlops的双精度性能。要知道在6年前只有Top500排行内超级计算机才可能拥有超过2TFlops的计算能力。


   橡树岭国家实验室位于美国田纳西州橡树岭的“Titan ”超级计算机就装备了18688 颗Tesla K20X GPU,以17.59 Petaflops 的性能纪录夺得了最新世界超级计算机的头号排名。因此从计算能力上,NVIDIA将GK110定格为3.5代,而之前的GF100被称为2.0,GK104则是3.0。当然,需要说明的是双精度性能实际上只对小部分需要高精度计算的用户来说很有用,对绝大部分用户包括民用计算领域的用户来说,单精度计算已经足够满足需求。比如目前比较热门的光线追踪、物理应用计算以及大部分工程类计算上,单精度依旧是绝大部分用户选择的计算方式。

     除此之外,GK110围绕在GPU外围的部分还有PCI-E 3.0总线控制器、超级线程控制中心、6组显存控制器(每组64bit,共64bit×6=384bit),显存和缓存都支持ECC校验功能。不过,相比SMX方面的改进,这里面的内容更为乏善可陈。

 

GK110基本规格推测

    虽然与GK104一样都属于开普勒架构,但GK110命名方式将升级到GTX 700系列---旗舰版为GXT780。毕竟如果沿用目前GTX 600的命名方式,对NVIDIA来说显然太过“保守”,预计在明年第一季度发布。不过,针对超算市场的,基本GK110架构的Tesla加速卡已经上市,如最新的HPC TOP 500王者采用的就是基于GK110架构的Tesla K20X加速卡。


  Tesla K20X拥有十四组SMX、2688个流处理器,同时启用完整的384-bit显存位宽和1.5MB二级缓存,搭配6GB GDDR5。频率方面,核心定在732MHz,显存频率则是5.2GHz,带宽达249.6GB/s,热设计功耗为235W。而更低端的Tesla K20又放弃了一组SMX和一个显存控制器,拥有2496个流处理器、320bit位宽,显存容量5GB GDDR5,二级缓存也对应地减少到1.25MB。核心频率也略降至706MHz,而显存频率仍然是5.2GHz,带宽为208GB/s,热设计功耗降低到225W。

   目前目前NVIDIA对玩家所关注的GK110图形性能方面的资料介绍不多。从以前的情况来看,NVIDIA对桌面版GK110估计会做进行一定阉割,从而将功耗和发热控制在合理水平。现有的GTX 680使用的GK104核心是8组SMX单元,1536个CUDA核心,下一代旗舰GTX 780要想保持性能上的优势,在SMX数量应该12个,核心/Boost频率维持在GTX680的水平--1100MHz/1150MHz,而显存位宽仍保留384bit,搭配3GB GDDR5容量显存,频率可能达到6200MHz,核心频率可能是1100MHz,Boost频率1150MHz。

   考虑到GK110新加入的双精度能力等新特性对图形性能的影响并不大,因此我们可以简单将GK110看作GK104的放大版本

 

AMD的HD8000系列,犹抱琵琶半遮面

    面对NVIDIA GK110,AMD也作出了表态---下一代HD 8000也正在准备中。不过,相对于NVIDIA落落大方的态度,AMD显得有点扭捏,到目前仍没有透露出HD8000较为详细的信息。

  AMD在显卡设计上一直坚持功耗和核心面积优先策略,因此每一代GPU核心都不会是跨越式前进。目前代号为“Sea Islands(海岛)”可以确定的是它也不是一种全新的架构,而是GCN架构的增强版---GCN2.0,只不过在现有基础上进行工艺的完善和功能特性、技术算法的进一步优化,包括更高的能效、 更高的性价比、改进的纹理单元等等,并新增支持无线显示技术(AMD Wireless Display Technology)等等,这些属于一次很自然的进化而非革命。不过,我们不必对“海岛”性能有更多的奢望,它的性能提升保守估计大概只有15%左右或者稍高一些。显然面对GK110的对手,海岛自然会有些力不从心,AMD真正的爆发也许还得靠更下一代的“火山岛”。

需要补充的是,“海岛”还将支持 HSA 异质架构。目前在超算领域,异构计算被广泛认为是继多核架构后提升处理器性能的最有效的方法,开发者和软件公司通过异构编程能够实现以往CPU无法满足的处理效果。HSA架构能够在 GPU 与 GPU 间寻址,可实现CPU和GPU间的片上数据共享,简化了编程难度,消除了传统异构系统由于不同部件间数据传输而产生的时延、效率和功耗问题,在内存和缓存两大计算机体系设计难题上做到异构系统的融合。这点是 Intel 的 Xeon Phi 处理器所没计划到的。

  未来“海岛”将根据产品定位不同,衍生四个核心系统: Venus(金星)、Mars(火星)、Sun(太阳)、Oland(厄兰岛)。四个名字里有三个是行星,看起来Radeon HD 8000系列的代号应该叫“Solar System”(太阳系)才更加贴切。


写在最后

    从目前情况来看,NVIDIA明年的GK110的实力更胜一筹,AMD的HD 8000则显得有些后劲乏力。之所以出现这种情况,一大原因是在通用计算趋势下,NVIDIA 新一代GPU的设计基本上彻底GPGPU化,希望不断加强GPU功能来弱化CPU计算的作用,从而能在未来通用计算领域占下一席之地。NVIDIA没有足够强大的CPU产品,即不能像AMD那样以APU为名,实现CPU和GPU的片上融合。因此,NVIDIA只有不断地加强自己的GPU,让GPU做更多的工作!当然,对我们消费者而言,并不希望看到GPU技术发展失衡,毕竟有竞争才有动力,有相互的平衡才能使玩家们得到真正的权益。在这里我们更期盼AMD的“火山岛”带来的爆发力能够再次达到市场的平衡,为今后的显卡市场输入良好的正能量!


延伸阅读:ARM端的GPU同样精彩!

    桌面显卡市场中AMD和NVIDIA打得火热,ARM移动处理器近年来的GPU也不乏看点。相对于仍桌面GPU停留在“单”核时代,ARM领域的GPU早就进入了四核心时代,如iPhone 5 A6处理器就采用了四核设计的 SGX543 MP4。当然受架构的制约,即便4核设计,ARM端GPU的性能仍远远不及桌面GPU。如四核设计的 SGX543 MP4运行频率仅为200MHz,但是每秒可生成1.33亿个多边形,像素填充率则可达每秒40亿像素(4GPixel/s),仅达了入门级台式显卡的水准。而八核设计的 SGX543 MP8在理论像素填充率方面可以达到了能与GeForce GTX260-216持平的水平。值得注意的是,Imagination今年推出了性能更强的Rogue的 PowerVR 6系列,核心性能是PowerVR SGX 543的三倍,其中G6230和G6430两个型号的计算性能最高可达1TFLOPS,性能已经接近HD 7750级别的显卡。

 
本文出自2012-11-26出版的《电脑报》第47期 E.硬件发烧友
(网站编辑:黄旭)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交