用于性能改善的可重配置圖形處理器的制造方法
【專利說明】用于性能改善的可重配置圖形處理器
[00011 本申請是申請日為2011年11月21日申請?zhí)枮榈?01180074955.6號發(fā)明名稱為"用 于性能改善的可重配置圖形處理器"的中國專利申請的分案申請。
[0002] 背景
[0003] 本申請總體上涉及計算機(jī)系統(tǒng)中的圖形處理。
[0004] 圖形處理器在不同的處理條件下運(yùn)行。在一些情況下,它們可在高功耗模式下以 及在低功耗模式下運(yùn)行??赡芰钊似谕氖?,在給定圖形處理器所運(yùn)行的功耗模式的情況 下,獲得最大的可能性能。
[0005] 附圖簡要說明
[0006] 圖1是本發(fā)明的一個實施例的框圖。
[0007] 圖2是本發(fā)明的另一個實施例的流程圖。
[0008] 圖3是本發(fā)明的一個實施例的示意圖描繪。
[0009] 圖4是本發(fā)明的一個實施例的性能相對于功率預(yù)算的假想圖;以及
[0010] 圖5是一個實施例的功率預(yù)算相對于時間的假想圖。
[0011] 詳細(xì)說明
[0012] 在一些實施例中,圖形處理內(nèi)核自動對其自身進(jìn)行重配置以便通過對圖形處理引 擎的部分進(jìn)行動態(tài)功率門控來在高功率和低功率包絡(luò)中增加或最大化性能。如在此所使用 的,功率門控包括激活或去激活內(nèi)核部分。
[0013] 盡管將使用平板計算機(jī)圖形處理器提供示例,相同的概念應(yīng)用于任何圖形處理 器。
[0014] 圖形處理內(nèi)核通常包括執(zhí)行算數(shù)、邏輯和其他操作的多個執(zhí)行單元??墒褂枚鄠€ 采樣器進(jìn)行紋理處理。采樣器和多個執(zhí)行單元是子切片(subslice)??苫谀繕?biāo)性能和功 率預(yù)算在特定的圖形處理內(nèi)核中包括多個子切片。對子切片進(jìn)行組合以形成圖形處理切片 (slice)。圖形處理內(nèi)核可包含一個或多個切片。在平板計算機(jī)圖形處理內(nèi)核中,通常使用 單個切片以及一個、兩個或三個子切片設(shè)計。多切片在客戶端圖形處理器中是常見的。
[0015] 因此,參見圖1,示出了典型的圖形處理器內(nèi)核,內(nèi)核10包括切片編號1(標(biāo)記為 14),該切片可包括固定功能流水線邏輯16和多個子切片18a和18b。在一些實施例中,可包 括更多切片和更多或更少的子切片。圖形處理內(nèi)核還包括固定功能邏輯12。
[0016] -個、兩個和三個子切片設(shè)計的功率和性能特征不同,如圖4所示。作為一個示例, 性能線性地增加到性能相對于功率耗散的拐點A(例如,大約2.5瓦)。在該拐點以下,圖形處 理器在頻率成比例的區(qū)域中工作,在該區(qū)域中,可在不升高工作電壓的情況下升高圖形處 理器頻率。在該拐點以上,圖形處理器頻率僅在電壓也升高時才升高,這通常對功率耗散具 有負(fù)面影響并且導(dǎo)致性能相對于功率耗散中比頻率成比例區(qū)域經(jīng)歷更平緩的曲線。
[0017] 可對圖形處理器的子切片中的一個或多個進(jìn)行功率門控??傮w上,子切片越多,性 能越尚,但是性能間隙隨著可用功率預(yù)算的減少而減少并且可能在圖4中存在點B(例如,在 大約1.5瓦),其中單一子切片配置表現(xiàn)得比兩子切片配置更好。這種更優(yōu)性能是由具有明 顯更多泄露功率以及因此更少用于動態(tài)功率的空間的更大配置造成的。在低功率預(yù)算中, 更少用于動態(tài)功率的空間可顯著地限制更大配置的頻率和性能,使得其看起來沒有更小配 置那么吸引人。
[0018] 在一些實施例中,功率共享機(jī)制可用于實現(xiàn)圖形處理器子切片的高效動態(tài)功率門 控。當(dāng)然,代替對子切片功耗進(jìn)行門控,相同的概念應(yīng)用于具有多于一個切片的實施例中的 任意數(shù)量的圖形處理器切片的動態(tài)功率門控。
[0019] 圖形處理器可具有功率共享功能,該功能基本上隨著時間增加(或降低)功率,如 圖5所示。在特定的時間點七處,可由功率控制單元為圖形處理器內(nèi)核分配特定低水平的功 率預(yù)算TDP1,該功率預(yù)算迫使圖形處理器在特定頻率Π 下運(yùn)行,該特定頻率是允許圖形處 理器不超過其分配功率預(yù)算的最大頻率。當(dāng)功率預(yù)算隨著時間增加時,圖形內(nèi)核可在逐漸 更尚的頻率下運(yùn)行。
[0020] 在子切片功率門控下,功率控制單元事先得知圖形處理器內(nèi)核可配置有全套的執(zhí) 行單元和子切片或者配置有更少的執(zhí)行單元和子切片。例如,一個實施例可包括十六個執(zhí) 行單元和兩個子切片并且另一種操作模式可包括八個執(zhí)行單元和一個子切片。當(dāng)圖形處理 器可用的功率預(yù)算很小時,可在更小的內(nèi)核配置中配置圖形處理器,其中兩個可用子切片 之一被功率門控。
[0021 ]總體而言,不是簡單地在任何特定時間點關(guān)閉子切片,因為其可能正在執(zhí)行有效 線程。當(dāng)功率控制單元確定應(yīng)當(dāng)對子切片進(jìn)行功率門控時,立即動作是阻擋新的圖形處理 線程被調(diào)度到該子切片上。因此,在已經(jīng)在子切片上執(zhí)行的線程完成并且子切片變?yōu)榭臻e 之前需要一段時間。在一個實施例中,僅當(dāng)這時對子切片進(jìn)行實際功率門控。
[0022] 在功率門控下,當(dāng)功率預(yù)算逐漸增加時,在某一時間點,初始關(guān)閉的子切片變?yōu)榇?開。或者,相反地,當(dāng)處理器從高功率預(yù)算變?yōu)榈凸β暑A(yù)算時,可關(guān)閉子切片(如圖5所示)。
[0023] 當(dāng)關(guān)閉子切片時,頻率可增加或翻倍(如果關(guān)閉了兩個子切片之一)。結(jié)果是,性能 可保持相對穩(wěn)定,因為剩余的子切片運(yùn)行得比兩個子切片快兩倍。這種頻率增加確保了從 較大的未門控圖形內(nèi)核到較小的門控圖形內(nèi)核的平滑轉(zhuǎn)變(從性能角度出發(fā))。相反地,當(dāng) 子切片未被門控并且我們轉(zhuǎn)變到兩切片圖形內(nèi)核時,時鐘頻率減半,以便將總體性能維持 在大約相同的水平下。
[0024] 如上所述的時鐘頻率改變被設(shè)計成在出現(xiàn)功率門控的時間點不顯著地中斷(例如 翻倍或減半)圖形內(nèi)核的可縮放部分(圖1所示子切片邏輯)的總體性能。然而,如果功率門 控的動作由于其低泄露耗散已經(jīng)產(chǎn)生了更功率高效的圖形內(nèi)核,這隨后會允許圖形內(nèi)核升 高其時鐘頻率和功率耗散從而滿足其分配功率預(yù)算。這將導(dǎo)致增加的性能,而這就是功率 門控的終極目標(biāo)。
[0025] 另一方面,當(dāng)分配給圖形內(nèi)核的功率預(yù)算增加并允許增加子切片時,將時鐘頻率 減半將初始地保留相同的性能。然而,給定增加的圖形功率預(yù)算,圖形內(nèi)核然后將被允許也 升高其頻率,這將導(dǎo)致所希望的提高性能的結(jié)果。
[0026] 在如上所述的動態(tài)功率門控的過程中升高或降低時鐘頻率針對圖形內(nèi)核的可縮 放部分(即,圖1所示的子切片)而言運(yùn)行良好。然而,如果圖形內(nèi)核的不可縮放部分(例如, 固定功能邏輯12,如圖1所示)使用相同的時鐘,則改變時鐘頻率可影響并且可能限制該邏 輯的性能。這將不是所希望的。為了避免這種情況,不可縮放邏輯可使用其自身的獨立時 鐘,該獨立時鐘不受可縮放圖形邏輯內(nèi)的時鐘頻率改變的影響。
[0027] 從較大配置切換到較小配置可改善性能,因為其提供了泄露節(jié)省并且為更動態(tài)的 功率提供了空間。同時,從較大配置切換到較小配置可能潛在地導(dǎo)致增加的動態(tài)功率,因為 頻率也相應(yīng)地增加了。因此,從較大配置轉(zhuǎn)變到較小配置由于相應(yīng)的頻率增加可能在所實 現(xiàn)的泄露節(jié)省超過了動態(tài)功率成本時發(fā)生。當(dāng)這種情況保持時,這種轉(zhuǎn)變將存在凈功率節(jié) 省并且有余地來繼續(xù)增加頻率并且實現(xiàn)凈性能增益。
[0028] 因此,舉一個例子,在十六執(zhí)行單元下,兩子切片單元轉(zhuǎn)變到八執(zhí)行單元,一個子 切片單元作為功率門控的結(jié)果,以下泄露增量(LD)等式適用:
[0031]其中f8和Π 6是在功率門控或不門控事件發(fā)生時的時間點處八和十六執(zhí)行單元配 置的頻率;V8和V16是當(dāng)功率門控事件發(fā)生時兩個圖形處理內(nèi)核的工作電壓;C8和C16是當(dāng) 功率門控事件發(fā)生時兩個圖形處理內(nèi)核的切換電容;Cmax8和Cmaxl6是對于功率病毒 (virus)工作負(fù)載,兩個圖形內(nèi)核的最大切換電容;以及AR16和AR8是就在功率門控或不門 控事件之前和之后的兩個內(nèi)核的應(yīng)用率。應(yīng)用的"應(yīng)用率"被定義為當(dāng)該應(yīng)用在內(nèi)核上執(zhí)行 時圖形內(nèi)核切換電容與圖形內(nèi)核功率病毒的切換電容的比率。
[0032]這些等式可用于決定