当前位置:首页 > 装机升级 > 显卡 > 新闻
GPU的下一场生死斗
  • 2012-11-22 11:59:50
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:王诚
  • 作者:八戒
【电脑报在线】2012已经接近了尾声,图形芯片地位的两大巨头NVIDIA和AMD今年在构架研发上的革新为我们奉献了许许多多的惊喜。如今年AMD以先发制人的28nm制程优势革新了之前40nm性能的缓慢发展,NVIDIA则绝地反击,以开普勒GeForce GTX 680在性能功耗比方面给出有力还击,为玩家们提供了更好的选择性。那么明年接下来会又怎样的动作?

  2012已经接近了尾声,图形芯片地位的两大巨头NVIDIA和AMD今年在构架研发上的革新为我们奉献了许许多多的惊喜。如今年AMD以先发制人的28nm制程优势革新了之前40nm性能的缓慢发展,NVIDIA则绝地反击,以开普勒GeForce GTX 680在性能功耗比方面给出有力还击,为玩家们提供了更好的选择性。那么明年接下来会又怎样的动作?


开普勒”家族的变态怪兽,GK110!

  虽然今年NVIDIA如期地为我们带来了“Kepler(开普勒)”核心,但今年的Kepler架构的重要产品只是“小巧精壮”GK104。那么NVIDIA的“重型武器”在哪里呢?当然是GK110,这才是“开普勒”家族的王者之作,这也是明年NVIDIA为我们带来的惊喜!


   28nm HP工艺下晶体管的怪兽

  我们先不说GK110即将带来什么样的新技术或什么样的性能,单单71亿晶体管相信就令人激动。NVIDIA给出的资料已经基本可以清楚地表明:GK110内部集成了71亿个晶体管!71亿,这个数字比目前全球人口还要多,即便是英特尔IVB架构的晶体管也不过14亿。当然,要让狭小的空间容下71亿个晶体管,28nm工艺当然仍是首选----GK110将采用台积电最新的High-K电介质+金属栅极的28nm制程。

  目前台积电在28nm工艺方面一共有三种主力工艺,分别是“低功耗氮氧化硅电介质工艺”(代号28LP)、“High-K+金属栅极高性能工艺”(代号 28HP)和“低功耗型High-K+金属栅极工艺”(代号28HPL)。其中28HP主打的是高性能,它在核心频率的潜力挖掘以及漏电控制上更为出色。根据NVIDIA要求开普勒的每瓦特双精度性能达到费米的3~4倍来看,GK110的功耗不高于310W,至少也有230W左右。不过,即便是台积电的28nm工艺很给力,但坐拥71亿“子民”的GK110核心面积仍达到550平方毫米,L2缓存从Fermi的768KB、GK104的512KB大幅增加到2MB。


   增强版SMX单元

   对开普勒架构有了解的朋友都知道,在GK104上,英伟达在Fermi费米架构上力推的SM已经不见踪影,取而代之的是SMX单元。


   相对于SM单元,Kepler的SMX单元急剧放大了ALU团簇的整体规模,其ALU总量从过去的32个增加到了192个,并且每个SMX中纹理单元从4个增加到16个。这样的改进为SMX带来了全新的性能表现----新的逻辑设计让Kepler的运算单元拥有了2倍于Fermi的性能功耗比。作为开普勒家族未来的族长,GK110的SMX单元设计仍然与GK104一样都是192个CUDA核心,但SMX数量从GK104的8个增加15个SMX核心,共计拥有2880个CUDA Core。在双精度能力上,GK110相比GK104也有大幅度进步---每组SMX单元增加了4个额外的16-block双精度浮点单元,同时NVIDIA在GK110核心上还进一步放大了与ALU团簇对应的Register---GK110运行的每个线程现在可以分配多达255个32位的寄存器(register),较GK104架构放大了一倍。这大大提升了GK110的双精度性能。根据NVIDIA公布的资料,基于GK110架构K20X在开启14个SMX核心、782MHz的频率下,拥有4.2TFlops的单精度性能和1.4TFlops的双精度性能。要知道在6年前只有Top500排行内超级计算机才可能拥有超过2TFlops的计算能力。


   橡树岭国家实验室位于美国田纳西州橡树岭的“Titan ”超级计算机就装备了18688 颗Tesla K20X GPU,以17.59 Petaflops 的性能纪录夺得了最新世界超级计算机的头号排名。因此从计算能力上,NVIDIA将GK110定格为3.5代,而之前的GF100被称为2.0,GK104则是3.0。当然,需要说明的是双精度性能实际上只对小部分需要高精度计算的用户来说很有用,对绝大部分用户包括民用计算领域的用户来说,单精度计算已经足够满足需求。比如目前比较热门的光线追踪、物理应用计算以及大部分工程类计算上,单精度依旧是绝大部分用户选择的计算方式。

     除此之外,GK110围绕在GPU外围的部分还有PCI-E 3.0总线控制器、超级线程控制中心、6组显存控制器(每组64bit,共64bit×6=384bit),显存和缓存都支持ECC校验功能。不过,相比SMX方面的改进,这里面的内容更为乏善可陈。

本文出自2012-11-26出版的《电脑报》第47期 E.硬件发烧友
(网站编辑:黄旭)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交