2011年1月13日 星期四

Sandy Bridge

最近Sandy Bridge的報導、報告和分析非常多。談一談大家"好像"沒講的很清楚或沒提到的東西吧!

一、Intel微架構(Microarchitechture)、處理器(CPU;Processor)、和平台(Platform)代表不同的意義

1.上一代Nehalem和這一代Sandy Bridge是Microarchitechture,同時也是第一顆Processor的codename

4Q08發表的上一代45nm Nehalem microarchitecture,對外叫做Core,主要特色包括Hyper-Threading、Intel Dynamic Speed Technology、Dynamic Power Management、Integrated memory controller(以前是放在北橋裡面),而這個微架構的第一顆processor,codename也叫做Nehalem,但是隨後基於Nehalem基礎的各款Processor,就有各種不同的codename。

在Nehalem微架構基礎下,進入32nm,Intel就改稱為32nm Westmere Microarchitechture。

1Q11的Sandy Bridge是新一代的Microarchitechture,同時第一顆 Processor也叫同名Sandy Bridge,對外叫做第二代Core家族系列processor,加強了Turbo Boost 2.0、4-way/8-way Multi-Task processing、Enhanced Visuals Features、Intel Graphics HD 2000/3000、增加AVX指令集,個人感覺,Sandy Bridge微架構革新的腳步沒有Nehalem大,最大的改進是在視覺和繪圖運算上面。

2. 在同一個Microarchitechture之下,會有製程技術(process technology)的演進,Intel刻意讓這兩個進展分開進行,以避免在同一個Processor上同時導入新的Microarchitechture和新的process technlolgy可能發生的重大風險,讓產品延遲。這就是Intel說的"Tick-Tock",45nm Penryn之後,45nm製程不變但導入新的微架構Nehalem,之後微架構不變製程導入32nm Westmere,之後32nm製程不變,導入新的微架構Sandy Bridge,之後微架構不變但製程導入22nm Ivy Bridge......

上代微架構Nehalem(45nm)=Westmere(32nm)
這代微架構Sandy Bridge(32nm)=Ivy Bridge(22nm)

3. 同一個微架構和製程技術之下,會有多款Processor(CPU)產品,例如以Nehalem/Westmere微架構基礎之下,就有多款Processor,像DT的Bloomfield(45nm)、Lynnfield(45nm),NB用的Clarksfield processor(45nm)和Arrandale processor(32nm),而Arrandale其實是32nm Processor die + 45nm Graphics die = MCP Processor。通常不同的Processor係為了產品的多樣化和市場區隔,例如有不同的核心數(single/duel/quad cores)、Clock speed、DRAM speed/supporting、有沒有整合繪圖晶片、功耗(W)、SFF(Small form factor)通常是低電壓LV/ULV、還有最重要的,有多大的Cache(1M to 8M)......等等,這些都會影響Processor產品的成本/價格和性能,至於Sandy Bridge Processor(新的微架構的第一顆CPU是同樣名字)除了微架構之外,最大創新就是將CPU、Memory controller和Graphics整合在同一個32nm Die裡面,還可以共享Cache。

4.至於Platform,通常用在NB,必須包含三個元素:
(1)Processor
(2)Chipset(現在將北橋的memory controller和Graphics移到Processor內之後,Intel就改稱為PCH:platform controller hub)
(3)Wireless
(4)LAN
例如:Huron River Platform = (1)Sandy Bridge + (2)Cougard Point PCH + (3)一大堆WiFi/Wimax/BT產品的排列組合 + (4)Lewisville
而前一代的Calpella Platform = (1)Clarkfield(獨立型)/Arrandale(整合繪圖型) + (2)Ibex Peak PCH + (3)Kilmer Peak/Puma Peak/Condor Peak + (4)Hanksville
當然,最主要是(1)+(2),(3)/(4)用Intel以外的廠商也可以,以前是都要用才能貼貼紙(Centrino),後來就沒有Platform貼紙可以貼了,用別家也無仿。

二、Sandy Bridge繪圖性能大躍進,可能和CPU共用大塊Cache有關,這是有史以來第一次,也是獨立Graphics無法做到的地方,對Graphics晶片長期發展不利

以往Graphics不是和Chipset的北橋整合,或是現在和CPU整合,所謂的整合型晶片的繪圖效能,都遠不如獨立的Graphics繪圖晶片,多用在中低階市場或商用市場,每一次Intel更換新的繪圖核心,和主流Graphics chip的性能就拉近一點,然後Nvidai/AMD推出新產品,又把差距拉大,至於整合型CPU(以前是整合型chipset)佔整體PC的比重逐漸增加,和性能差距關係不大,而是PC市場擴大、許多低價PC興起,自然用便宜的整合型晶片。許多報告都有提到Sandy Bridge的繪圖效能進步很大,讓人覺得不過又是一次CPU和Graphics之間互有勝負的新產品之爭罷了! 不以為意,但個人感覺,這次的演進可能是結構性的大躍進,Grahpics要把性能差距再拉開,可能會越來越困難了。

以往Intel Graphics整合在北橋裡面,基本上是獨立運做的一個IP Block,運作方式和獨立Graphics晶片類似,但為了技術、市場和成本因素,只能將比較低階的主流市場用的Graphics整合進去,性能自然無法和更複雜、龐大的獨立型高階Graphics競爭,到了Arrandale,雖然CPU內含Graphics,但基本上還是兩個獨立的die,用MCP(multi-chips package)封裝在一顆chip內,外表看上去是整合的一顆CPU,但只是省掉PCI-E的bus效率,和以前Graphics被整合在北橋的方式差異不大,但是到了Sandy Bridge,CPU和Graphics整合成一顆32nm的die,這樣做有一個很大好處,就是可以共用CPU大量的Cache。

談到Cache,X86 CPU早期,只有L1 Cache,到後來有L2 Cache,到後來有L3 Cache,現在乾脆叫Last Level Cache(LLC),目前最大CPU內含8MB Cache,有時候一顆CPU die size有一半的面積是Cache,Cache的大小,也是在同一個CPU系列裡面,影響效能很重要的因素。個人感覺Sandge Bridge有一大創新,就是讓一大塊LLC Cache Block可以讓CPU和Graphics共用,這是獨立型Graphics chip無法辦到的地方,就算他要用CPU同樣的方法在Graphics內部設計大容量Cache,也無法在成本上和Sandy Bridge內的繪圖核心競爭,因為Intel Graphics核心等於 "免費" 共用CPU原有的大塊LLC Cache。因此,長期看對於Nvidia和AMD這種獨立Graphics Chip和Intel整合型Graphics的性價比競爭,對Nvidia和AMD(ATI)不利。

三、Clock Generator被整合到Cougar Point PCH

Huron River平台6系列的Cougar Point PCH(chipset)已經將Clock generator整合進去,可以節省一個零件,雖然不貴,但是對CK505 Clock Generator廠商來說,總不會是一件好事吧!

至於Audio Codec聽說好像也會被整合進去,但是在網路上找一片剛上市的6系列主機板(P67),上面還是有一顆Audio Codec,這就讓Richard搞迷糊了,有人知道真相如何,煩請告知。

四、Wi-Fi + Bluetooth正式成為Huron River的Wireless選項之一

Huron River這次的Wireless module選擇讓人眼花撩亂,除了好幾個Wi-Fi + WiMax的排列組合之外,還有 Wi-Fi + B/T,Wi-Fi + Wireless display,好像是不錯的嘗試,但搭載率多少就很難說了。Wi-Fi Direct建構的Peer-to-Peer(點對點)資料傳輸,似乎也是個不錯的應用。

後記:
有兩位讀者熱心指正Richard的觀點,認為GPU和CPU共享Cache並不能幫助GPU有更好的performance,感謝讀者的指正,當時,聽PC廠都說Sandy Bridge的繪圖效能進步很多,找了一下資料,發現除了新的繪圖核心之外,這一次也是首度共享CPU Cache,而Intel自己也提到這個原因,因此個人猜測這應該是主要原因,但因為Richard並非產業中人,如果推測錯誤,請各位多包涵,在此註明不同意見,有興趣的讀者可以看一下本篇文後"意見"中的留言。

7 則留言:

匿名 提到...

Intel 雖然在CPU內建了GPU,但其效能和AMD/Nvidia是天差地遠, 就連AMD APU內建的gpu效能都大幅領先Intel GPU,況且現在intel graphic並不支援DirectX 11. 若光是Intel Graphics可使用CPU cache這點不太可能對AMD/Nvidia的產生威脅

其實獨立顯卡的部份也會有內建的cache,只是cache的大小並不會特別標示出來, Intel 這種graphic和CPU cache共用的做法,比較像是想省graghic的cache,有點在偷料.或許graphic用了CPU的cache效能會增進,但反過來說因為cache共用的關西,CPU效能反而受影響

Richard's Research Blog 提到...

多謝指教,讓我增加知識!

不過我想知道的是性能 "差距" 是否會縮小呢?
比如說,以前AMD/Nvidia大幅領先,現在領先就沒有那麼大?

因為有PC廠說Sandy Bridge繪圖能力進步很多,因此我猜測和共用cache有關,如果猜錯,再來更正文章好了!

謝謝!

Richard

匿名 提到...

還整合了giga bit 的MAC,不過還要另外加一個PHY就是了

JerryC

匿名 提到...

剛找了一下技嘉跟華碩的網站
大部分的1155主機板,還是用瑞昱的 audio codec跟gigabit網卡。網卡大部分是RTL8111E,音效卡很多種
ALC889 ACL892.....

JerryC

音效 1.內建Realtek ALC892晶片

網路 1.內建1個Realtek RTL8111E晶片(10/100/1000 Mbit)

Richard's Research Blog 提到...

Thanks, Jerry

Richard

匿名 提到...

I believe sharing CPU cache may not have big improvement on graphic performance. The GPU perform vector processing, which will use so much bandwidth that traditional cache cannot sustain. GPU has some dedicated cache. Besides, most memory load/store should go through the DRAM directly.

Richard's Research Blog 提到...

謝謝您的分享,當時,聽PC廠都說Sandy Bridge的繪圖效能進步很多,我找了一下資料,發現除了新的繪圖核心知外,這一次的差別也和共享CPU Buffer有關,而Intel對PC廠的簡報中,也提到這個原因,因此個人猜測這應該是主要原因,因為Richard並非產業中人,如果推測錯誤,請多包涵,謝謝您的指正,我會在文章尾巴,註明您的不同的意見,謝謝!
Richard

張貼留言