當(dāng)前位置:
首頁(yè) >
行業(yè)新聞
> > PS3專(zhuān)用圖形處理器RSX專(zhuān)業(yè)技術(shù)分析
PS3專(zhuān)用圖形處理器RSX專(zhuān)業(yè)技術(shù)分析
中國(guó)投影網(wǎng)行業(yè)資訊 2008-7-10 11:33:27 編輯:羽彤 [
大
中 小 ]
一:RSX圖形芯片就是Geforce 7800 GTX翻版?
Sony電腦娛樂(lè)(SCEI)與Nvidia公司合作開(kāi)發(fā)下一代PlayStation 3游戲機(jī),搭載了Nvidia公司開(kāi)發(fā)的代號(hào)為“RSX(Reality Synthesizer現(xiàn)實(shí)合成器)”的圖形芯片,這個(gè)圖形芯片可以看作是Nvidia GeForce GPU 7800 GTX(G70)的兄弟版本。
Nvidia的首席工程師David B. Kirk稱(chēng),關(guān)于兩款GPU芯片的“Shader架構(gòu)”,RSX和G70并沒(méi)有什么差別,兩者的差別集中在生產(chǎn)工藝,系統(tǒng)總線,記憶體頻寬等方面。如G70采用TSMC的110nm工藝制造,采用PCI-E x16接口,搭載256Bit帶寬的GDDR3記憶體,而RSX則采用SONY/Toshiba的90nm 工藝,F(xiàn)lexIO前端總線架構(gòu)搭配128bit記憶體寬度。
為什么說(shuō)G70和RSX在Shader架構(gòu)上沒(méi)有區(qū)別呢,原因有幾個(gè),最主要的根據(jù)來(lái)自與Nvidia在E3大展上公開(kāi)發(fā)表的RSX規(guī)格說(shuō)明,證實(shí)RSX每個(gè)周期能夠運(yùn)行136 shader運(yùn)算。Xbox 360所使用的GPU來(lái)自于ATI所開(kāi)發(fā)的R500,根據(jù)微軟透露的資料顯示,R500每個(gè)周期可執(zhí)行96個(gè)Shader操作(運(yùn)行頻率500MHz),也就是每秒可執(zhí)行480億個(gè)Shader指令,這一數(shù)值要高過(guò)Nvidia的RSX!懊棵雸(zhí)行的Shader操作”這種叫法來(lái)源于ATI;而Nvidia則稱(chēng)之為“每秒執(zhí)行的指令數(shù)”,這是因?yàn)镹vidia同時(shí)計(jì)算了一次Shader操作中所導(dǎo)致的復(fù)述操作,所以Nvidia在關(guān)于RSX Shader結(jié)構(gòu)的規(guī)格計(jì)算方法和ATI的截然不同,這在E3大展上面也曾成為議論點(diǎn)。
按照Nvidia的計(jì)算方法,RSX的“每周期136個(gè)Shader操作指令”的參數(shù)實(shí)際上與G70相同(因?yàn)镚70的架構(gòu)為8VS/24PS,而G70的每個(gè)VS流水線等價(jià)于2個(gè)指令/周期,PS流水線等價(jià)于8指令/周期),故RSX和G70均為每周期136個(gè)Shader操作。換句話說(shuō),如果觀察周期指令運(yùn)算能力的話,你會(huì)發(fā)現(xiàn)G70和RSX的Shader架構(gòu)幾乎完全相同,因?yàn)镽SX也是具備8VS和24PS流水線,這一點(diǎn)和G70完全相同。
事實(shí)上,公開(kāi)表示G70和RSX擁有相同的架構(gòu)的著名業(yè)界人士透露,由于Nvidia直到去年的夏天才和Sony電腦娛樂(lè)(SCEI)最終確定合作事宜,Nvidia 實(shí)際上根本沒(méi)有足夠的時(shí)間來(lái)為PS3著身定制一款專(zhuān)門(mén)的圖形芯片。
目前我們可以假定,RSX實(shí)際上和G70是基本相同的同一架構(gòu)的圖形芯片,甚至連晶體管的個(gè)數(shù)都差不多(此前傳RSX是包括3億只晶體管,而G70為3.02億)由于G70的PCI-E x16架構(gòu)對(duì)于帶寬的要求比RSX的FlexIO前端總線高的多,因此G70的顯存帶寬是RSX的兩倍不難理解。
二:RSX的Shader運(yùn)算能力比G70增長(zhǎng)28%?
G70的Shader架構(gòu),其實(shí)是以GeForce 6800(NV40)為基礎(chǔ),不過(guò)對(duì)Pixel Shader的并行運(yùn)算( parallelism )進(jìn)行了加強(qiáng);例如,NV40在Pixel Shder內(nèi)部擁有2個(gè)引導(dǎo)操作單元,不過(guò)其中的1個(gè)單元不能執(zhí)行1個(gè)周期內(nèi)芯片演算的數(shù)據(jù)量總和,而G70則能做到這一點(diǎn),而我們現(xiàn)在猜測(cè)RSX同G70一樣。
雖然G70和RSX的Shader架構(gòu)幾乎完全相同,但是兩者的性能還是有差距的,原因在于運(yùn)行頻率的高低,根據(jù)Nvidia的官方數(shù)據(jù),G70的默認(rèn)頻率為430MHz,而RSX為550MHz,頻率方面的差距在28%,那么兩者的Shader運(yùn)算性能差距能夠達(dá)到理論上的28%嗎?
根據(jù)Nvidia公布的G70資料顯示,Vertex Shader引擎具備4路 VLIW單元和1個(gè)梯狀單元,可以并行處理5個(gè)數(shù)據(jù);故計(jì)算得知一個(gè)周期內(nèi)包括10個(gè)浮點(diǎn)指令操作,而G70的Vertex Shader引擎數(shù)目是8條,因此,最近計(jì)算得到的G70浮點(diǎn)運(yùn)算能力為:
(4路+1梯形) X 2FP(浮點(diǎn)操作 MADD) = 10FP/周期;10個(gè)FP(浮點(diǎn)操作)×8Shader×430MHz=34.4GFlops
而G70的Pixel Shader引擎中,具備2個(gè)梯形操作單元以及4路×2 SIMD單元,此外還擁有可以處理處理算數(shù)指令(mini ALU)的FP16規(guī)格化處理單元(共7路),因此,G70的Pixel Shader引擎浮點(diǎn)效能如下:
((4路 x 2 單元 + 2梯形單元) x 2 FP) + 7 規(guī)格化處理器單元 = 27 FP操作/周期:27 FP x 24 Shader x 430MHz = 278.6GFLOPS
有了這樣的計(jì)算公式,我們可以很輕松地計(jì)算出頻率為550MHz的RSX的Vertex Shader和Pixel Shader引擎的浮點(diǎn)運(yùn)算能力:
Vertex Shader
10 FP x 8 Shader x 550MHz = 44GFLOPS
Pixel Shader
27 FP x 24 Shader x 550MHz = 356.4GFLOPS
總共為44GFLOPS + 356.4GFLOPS = 400.4GFLOPS
而 Xbox 360 GPU(R500)的Shader浮點(diǎn)運(yùn)算能力為240GFLOPS,雖然數(shù)值上僅為RSX的60%,但是由于R500和RSX在開(kāi)發(fā)架構(gòu)上有不小的區(qū)別,RSX是分離的VS/PS設(shè)計(jì),Xbox 360 GPU是一體化的設(shè)計(jì),故R500的實(shí)際性能并不能僅從數(shù)字上來(lái)判斷。
三:FlexIO的帶寬決定了如何使用GPU
可以這么說(shuō),G70和RSX最大的不同在于其總線技術(shù)(Host bus),G70支援PCI-Express x16總線技術(shù),而RSX則使用Rambus的FlexIO(Redwood紅木)總線技術(shù)。
我們知道,總線的并行結(jié)構(gòu)與高頻率、布線難度素來(lái)就是矛盾:并行總線存在嚴(yán)重的信號(hào)干擾,無(wú)法穩(wěn)定工作在較高的頻率下、傳輸性能極為有限,且總線寬度越大、工作頻率越高,對(duì)布線工作要求就越苛刻,這就造成并行總線的性能很難有繼續(xù)提升的空間。為此,計(jì)算機(jī)內(nèi)的高速總線無(wú)一例外均轉(zhuǎn)向串行體系,如PCI Express、HyperTransport、Serial ATA、IEEE1394a/b、USB 2.0等等—但RAMBUS公司提出的FlexIO總線技術(shù)卻是一個(gè)例外,它以并行模式工作,工作頻率高達(dá)6.4GHz,且布線工作相當(dāng)容易,完全克服了并行總線的“先天弊病”。
眾所周知PCI-Express x16的帶寬為4GB/S,如果雙向傳輸則可達(dá)到8GB/S;但是FlexIO總線中Cell-RSX的傳輸速度最高可以達(dá)到20GB/S以上,RSX-Cell的傳輸速度可以達(dá)到15GB/S以上,是PCI-E x16的5倍以上。較高的總線帶寬,有利于CPU和GPU的協(xié)同工作和數(shù)據(jù)分配;而對(duì)于總線帶寬相對(duì)較小的PC來(lái)說(shuō),GPU與CPU的溝通則顯得不太方便。對(duì)于這點(diǎn),我們會(huì)進(jìn)行進(jìn)一步的細(xì)節(jié)說(shuō)明。
使用的FlexIO的總線另外一個(gè)優(yōu)勢(shì)在于,即使裝備Cell 96bit帶寬其側(cè)面僅占據(jù)13.1平方mm,RSX的側(cè)面因?yàn)閹挼淖兇蠖兊锚M窄,并且有可能比13.1平方mm還要更小。
順便提及的是,具備并行接口的FlexIO總線很容易組成8bit運(yùn)算單元,標(biāo)準(zhǔn)傳輸率為6.4Gbps。但是SONY公布的PS3的資料中,20GB/S的Cell-RSX和15GB/S RSX-Cell的傳輸速率并不吻合。傳輸速率下降為5Gbps,符合下32bit和上24bit的計(jì)算,因?yàn)檫@個(gè)原因,F(xiàn)lexIO的傳輸速率有可能會(huì)掉到5Gbps。目前,PS3的Cell處理器以及XDR DRAM記憶體的運(yùn)行頻率已經(jīng)確定了,隨著CPU頻率的下降,XDR DRAM的傳輸速率也會(huì)下降。但是,F(xiàn)lexIO被看成是異步模式下工作的。
四:RSX和G70記憶體接口架構(gòu)對(duì)比
G70和RSX的另一個(gè)差別在于顯存記憶體的帶寬,為PC所設(shè)計(jì)的G70采用了256bit帶寬的GDDR3記憶體,而RSX采用了128bit帶寬的GDDR3記憶體,不過(guò)顯存的容量相同均為256MB。
目前RSX的記憶體控制器的架構(gòu)圖仍然只是處在猜測(cè)階段;根據(jù)NV40/G70的架構(gòu),顯存記憶體控制器分為4個(gè)分塊,每個(gè)分塊均連接到DRAM控制器,帶寬均為64bit。同時(shí)有每個(gè)分塊同時(shí)連接4個(gè)ROP(像素結(jié)果輸出處理器)像素單元,此外分塊之間也相互連接,因此總共具備16個(gè)ROP。這些ROP像素單元以每條2×2像素流水線為單位分為4組,在需要的情況下,這些ROP單元能實(shí)現(xiàn)alpha混合和附加的Z/Stencil功能,這讓它可以每個(gè)時(shí)鐘頻率處理32個(gè)Z/Stencil運(yùn)算,還完全支持Multiple Render Targets(多重著色目標(biāo))和加速的陰影著色能力。
我們假定RSX和G70采用同樣的設(shè)計(jì),每個(gè)記憶體分塊連接有4個(gè)ROP像素單元,而每個(gè)記憶體分塊都連接到DRAM記憶體,并且被分配到32bit帶寬;如果我們假設(shè)有8個(gè)ROP像素單元的話,那么就表明連接到DRAM控制器的部分擁有64bit帶寬。
最后要提到的是,此前Nvidia透露的資料顯示PlayStation3游戲機(jī),具備256MB XDR DRAM@3.2GHz的系統(tǒng)內(nèi)存,以及256MB GDDR3@700MHz的顯存。
五:RSX和G70的制造工藝對(duì)比
前面也曾提到,RSX和G70采用了不同的制造工藝進(jìn)行生產(chǎn),G70采用了和NV4x相同的TSMC 0.11微米制造工藝,制造工藝相當(dāng)成熟,內(nèi)部集成3.02億個(gè)晶體管,這是迄今為止顯示芯片晶體管集成數(shù)目的世界紀(jì)錄;而RSX采用Sony/Toshibia的0.09微米制造,內(nèi)部集成了3.0億晶體管。在顯示核心面積上,0.11微米制程的G70面積為300平方mm,而90nm工藝的RSC面積僅為G70的70%左右,在200~250平方mm之間;而PS3的上一代PS2的顯示核心采用0.25微米制程,面積為279平方mm。而隨著芯片制造的進(jìn)步,未來(lái)65nm和45nm制造工藝的芯片表面積降可以控制在100平方mm以?xún)?nèi)。
©版權(quán)所有。未經(jīng)許可,不得轉(zhuǎn)載。
網(wǎng)友評(píng)論
相關(guān)圖形處理器文章
廠商專(zhuān)區(qū)