高通新一代手機旗艦平台Snapdragon 8 Elite率先使用第二代自研Oryon CPU架構,相較過往每世代CPU約10%性能提升,此次則相對基於Arm Cortex微架構的Snapdragon 8 Gen 3有著達45%的提升、但能耗也減少45%;為何第二代Oryon CPU架構能夠實現如此出色的世代性能提升?高通安排與產品管理資深總監Karl Whealton進行訪談,解釋Snapdragon 8 Elite的CPU細部設計理念。
使用Armv8指令集是因為優先考量需求,與高通及Arm的授權官司無關
高通產品管理資深總監Karl Whealton
Karl Whealton提到,第二代Oryon CPU架構基於Armv8指令集,同時進一步針對低功耗的效能最大化進行最佳化設計,雖然外界可能會認為當其它競爭對手已經使用Arm第二世代64位元的Armv9指令集,高通Oryon仍為第一世代64位元的Armv8指令集是否不利於性能;不過Karl Whealton認為Armv9相對Armv8有更先進的功能的同時有些新功能反而會引發耗電,比起指令集高通設計團隊更注重合適的功能性與必要性,例如Arm Neon與支援64位元就是有必要的功能,從結果而言高通展現比起使用Cortex-A微架構的前一代產品更出色的性能與效能能耗比。不過Karl Whealton也表示高通仍會持續審視於Oryon CPU架構導入Armv9指令集的必要性,並非因為高通與Arm當前指令集授權爭議而使用較舊的指令集。
因為Oryon架構才實現2+6全大核設計
▲高通認為使用2+6全大核是基於第二代Oryon架構進行謹慎評估的結果
高通在使用Arm Cortex微架構時代同時使用Prime Core、Performance Core與Efficiency Core構成CPU組合,是由於高通認為若使用Arm的Cortex微架構使用三種負責不同功能的核心有其必要性,但高通也屢次因應核心的特性調整三種核心的分配;到了第一款使用自研Oryon CPU架構的Snapdragon 8 Elite,高通選擇使用雙核Prime Core搭配6核Performance Core的8核全大核設計,也是同樣認為這樣的8核心設計是對於旗艦手機平台的最佳解。
Karl Whealton表示Snapdragon 8 Elite不須使用節能型的Efficiency Core,是由於在高通團隊的努力下,第二代Oryon CPU的Performance Core能夠兼具傳統Performance於日常負載、多工執行與低能耗的均衡,同時因應如網頁瀏覽等需要瞬間負載,Snapdragon X Elite採用較過往更多的雙核Prime Core;Karl Whealton提到8核心與2+6配置是審慎評估的結果而非刻意為之,高通並未對核心數量或配置方式設限,以第二代Oryon CPU架構進行測試與評估,Snapdragon 8 Elite最終維持8核心上限,並增加Prime Core至雙核,同時每個核心也都具備精密的能耗管理與休眠功能,使得追求低功耗的Efficiency Core不再是必要的配置。
此外,高通此次無論是Prime Core與Performance Core都設定在相當高的時脈,不免令人擔心一味拉高時脈是否有不良的影響;Karl Whealton表示雖然Snapdragon 8 Elite的時脈相當高,但是第二代Oryon CPU架構對於低功耗執行有出色的能耗效能比,同時也配有先進的能耗管理方式,不必擔心高時脈會產生高發熱或耗電的現象,屆時終端裝置問世後,消費者將感受到比起Snapdragon 8 Gen 3更優異的續航力與低發熱表現。
此外筆者也問及當前對於使用者而言,旗艦平台執行高負載的循環測試項發生過熱性能限制的情況是否能反映真實使用情境;Karl Whealton表示以旗艦平台而言,進行多次高負載測試循環導致降頻可視為晶片的安全機制有正常發揮作用,但與消費者裝置的使用情境卻不見得吻合,因為這些測試的目的是以極限的方式執行任務,但手機裝置的日常使用情境卻相當的負責。
Karl Whealton舉了兩種常見但對於CPU性能要求截然不同的情境,一是網頁瀏覽,另一個則是遊戲;Karl Whealton表示網頁瀏覽需要的是瞬間的高性能,故能夠在瞬間提供峰值性能的Prime Core有助加速網頁的開啟,一但開啟網頁後就不再需要高度的CPU運算;而遊戲情境反而需要穩定的CPU負載,故高通積極與裝置端客戶、遊戲引擎、遊戲開發商合作,盡可能在執行遊戲時優先考慮CPU能長時間且穩定執行的模式,並非一味使CPU效能維持在最大峰值,確保玩家能夠流暢的執行遊戲內容。
雙核Prime Core共享L2快取有助更大L2快取容量
▲高通認為Prime Core共享L2能提供較大的總快取容量
筆者注意到目前重視峰值性能的CPU核心都會每個核心配置一組L2快取,不過高通Snapdragon 8 Elite的Prime Core卻使用雙核心共享12MB L2快取的設計,也引發筆者好奇並詢問Karl Whealton;Karl Whealton解釋在一般概念每個核心使用獨立L2快取有助減少延遲,多個核心共享快取則能使用更大的L2快取容量,高通在設計設法減少核心與快取的延遲,透過雙核Prime Core共享方式使L2達到12MB的大容量,此舉除了能夠獲得出色的性能以外,當Prime Core與NPU共享資料時也能提供更充裕的快取。
此外同業問及對於Intel於Lunar Lake導入L0級快取的設計有甚麼看法,Karl Whealton表示由於不便針對競品、而且是不同於手機的PC級產品進行評論,但他強調快取並沒有絕對的層級命名原則,不同廠商對於每一層快取都可以取名,高通在相當久遠以前也曾在CPU設計使用L0快取,不過高通的L0快取的意義以現在的架構似乎也能視為L1層級,但Karl Whealton認為快取的層數與性能沒有絕對影響,主要還是要看架構設計。
利用NPU大幅提升行動裝置執行AI的能耗效率
▲高通認為在電力受限的手機平台盡可能透過高性能、高效率的NPU執行各項AI任務有助提升續航力
此外,Karl Whealton也同時負責NPU,他也提到高通的Hexagon NPU於Snapdragon 8 Elite扮演舉足輕重的角色;若以PC的角度,會看到新一代PC級處理器多會聚焦在多核心異構協作執行AI,CPU、GPU與NPU各別負責不同的AI負載;不過由於行動裝置的能耗限制遠高於PC裝置,雖然高通相當早以前就強調Snapdragon平台是一個異構運算平台,但因應新一代生成式AI的需求,高通盡可能強化NPU於執行AI的最大化效率,透過低功耗、高效率的Hexagon NPU盡可能使Snapdragon X Elite以極低的能耗執行AI任務。
Karl Whealton強調,執行AI是相當複雜的工作任務,尤其是包括基於大型語言模型(LLM)、大型影像模型(LVM)與多模態模型(LMM)的生成式AI,以往需要透過雲端才能執行這些複雜的工作負載,但隨著因應這些運算需求的NPU技術發展越來越成熟,同時高精確性的AI模型尺寸已經小到足以於當前主流手機配置的RAM執行,作為引領產業新技術的旗艦機勢必需要能夠在裝置端執行生成式AI,高通認為為了有效率使用有限的手機電力,盡可能把相關的運算負載卸載至ISP是目前最佳的選擇,而Snapdragon 8 Elite的Hexagon ISP不僅較過往性能更強大,此外高通還透過稱為AI ISP的新一代ISP架構,使Hexagon ISP能直接介入相機影像訊號並與AI ISP相互溝通,實現更低延遲的AI物件分析與影像增強,並使在消除物件、物件分區增強、及時AI打光等AI增強能在影片進行即時處理。
番外篇:從單一GPU改為由3個Slice構成的GPU有助提高能耗效率
▲Snapdragon 8 Elite的GPU採用3個Slice能夠進一步提升能源效率
雖然Karl Whealton負責CPU與ISP,不過他仍回答了同業關於Snapdragon 8 Elite為何採用3 Slice設計的問題:Karl Whealton表示他雖然無法解釋GPU細節,不過相較以往Snapdragon行動平台的GPU採用單一Slice,Snapdragon 8 Elite使用3個Slice的原因就是為了實現更出色的能耗管理,你可把3個Slice想像成3個核心,當需要的時候才分別開啟,在低負載時可以使用1到2個Slice執行任務,如此一來有助進一步減少平台整體能耗。
暂无评论内容