AWS 推出五項 Amazon SageMaker 新功能，助力規模化開發應用模型

Amazon SageMaker HyperPod 透過為大規模分散式訓練提供專用的基礎架構，將基礎模型的訓練時間縮短了高達 40%
Amazon SageMaker Inference 透過優化加速器，平均降低 50% 的基礎模型部署成本，並平均縮短了 20% 的延遲時間
Amazon SageMaker Clarify 能夠讓客戶更輕鬆地根據支援負責任的 AI 的參數，迅速評估和選擇基礎模型
Amazon SageMaker Canvas 功能幫助客戶透過自然語言指令加速準備資料，並僅需幾次點擊即可使用基礎模型進行模型訂製
BMW 集團、Booking.com、Hugging Face、Perplexity、Salesforce、Stability AI 和 Vanguard 等公司已開始使用新的 Amazon SageMaker功能

亞馬遜（Amazon）旗下 Amazon Web Services（AWS）於 AWS re:Invent 全球盛會上宣布推出五項 Amazon SageMaker 新功能，幫助客戶加速建構、訓練和部署大型語言模型（LLM）和其他基礎模型。隨著模型不斷改變各行各業的客戶體驗，Amazon SageMaker 讓企業更輕鬆快速地建構、訓練和部署支援各種生成式人工智慧（Generative AI）使用場景的機器學習模型。為了善用模型，客戶需要進階的功能來高效管理模型的開發、使用和效能。這也是 Falcon 40B 和 180B、IDEFICS、Jurassic-2、Stable Diffusion 以及 StarCoder 等大多數業界領先的模型都在 Amazon SageMaker 上訓練的原因。

本次宣布的新功能，進一步增強了 Amazon SageMaker 的模型擴充能力並加速了模型的訓練，也透過降低模型部署成本和延遲時間，優化託管機器學習的基礎設施的管理。AWS 還推出了新的 SageMaker Clarify 功能，可以讓客戶在負責任地使用 AI 的基礎上，根據品質參數更輕鬆地選擇正確模型。為了幫助客戶在企業內部應用這些模型，AWS 還在 Amazon SageMaker Canvas 中導入了新的無程式碼功能，讓客戶更快、更容易地使用自然語言指令準備資料。同時，Amazon SageMaker Canvas 繼續普及模型建構和訂製，讓客戶更輕鬆地使用模型萃取洞察、進行預測和使用企業自有資料生成內容。這些創新均基於 Amazon SageMaker 豐富的功能，幫助客戶實現規模化的機器學習創新。若要開始使用 Amazon SageMaker，請至：aws.amazon.com/tw/sagemaker/。

可擴充運算能力、海量資料以及機器學習技術的快速進步，促使含有數十億參數模型的興起，它們能夠執行各種任務，如撰寫部落格文章、生成圖像、解決數學問題、進行對話和根據文檔回答問題。如今，成千上萬的客戶，例如 3M、阿斯特捷利康（AstraZeneca）、法拉利（Ferrari）、LG AI Research、瑞安航空（RyanAir）、湯森路透（Thomson Reuters）和 Vanguard 等，每月在 Amazon SageMaker 進行超過 1.5 萬億次的推論。此外，AI21 Labs、Stability AI 和 Technology Innovation Institute 等客戶也正借助 Amazon SageMaker 訓練擁有數十億參數的模型。隨著客戶從建構針對特定任務的模型，轉向支援生成式 AI 的大型通用模型，客戶必須處理大量資料庫並設置更複雜的基礎設施，同時在不斷優化成本和效能。客戶還希望能夠建構和訂製自己的模型，以創造獨特的客戶體驗，展現企業的形象、風格和服務。自 2017 年推出以來，Amazon SageMaker 已經新增了 380 多個功能，為客戶提供了規模化建構、訓練和部署大規模模型所需的一切。

AWS 人工智慧和機器學習副總裁 Bratin Saha 表示：「機器學習是近年來影響深遠的技術變革之一，所有企業組織都對模型產生了濃厚的興趣。這也給希望快速建構、訓練和部署模型的客戶帶來了新的挑戰。從加速訓練、優化託管成本、降低延遲到簡化基礎模型的評估，再到無程式碼模型的建構能力，我們的使命是讓各種規模的企業都能使用高品質、高成本效益的機器學習模型。我們再次升級 Amazon SageMaker，透過全託管、專門建構的新功能幫助客戶在機器學習方面的投資獲得最大成效。」

新功能讓客戶更輕鬆快速地訓練和運作模型，驅動生成式 AI 的應用

隨著生成式 AI 持續發展，許多新興應用都仰賴模型。然而，大多數企業為了滿足新模型需求而調整基礎設施時遇到困難，很難高效地實現規模化的訓練和運作。Amazon SageMaker 新增了兩項全新功能，旨在幫助減輕規模化訓練和部署模型的負擔。

Amazon SageMaker HyperPod 加速基礎模型規模化訓練：許多企業希望以較低的成本使用基於 GPU 和 Trainium 的運算執行個體來訓練自己的模型。然而，資料激增、模型規模擴大以及較長的訓練時間，使模型訓練複雜程度呈指數級增長，這使客戶必須進一步調整流程來應對這些新需求。通常客戶需要將模型訓練分配到數百甚至數千個加速器上。之後，在幾週或者幾個月的時間內同時執行數萬億次資料運算，這是一項耗時且需要專業機器學習知識的工作。與訓練特定任務的模型相比，加速器的數量和訓練時間都大大增加。因此，很容易出現如單個加速器故障等小錯誤。這些錯誤可能會中斷整個訓練過程，並需要人工辨別、隔離、調整、除錯和修復，這都將拖延工作進度。在基礎模型的訓練過程中，客戶經常需要暫停訓練，評估當前模型效能並優化訓練程式碼。為了不間斷地訓練模型，開發人員必須不斷儲存訓練進度（通常稱為檢查點），以便在訓練中斷後不會遺失進度，並從停止的地方繼續訓練。這些挑戰大大增加了訓練模型所需的時間和成本，拖延了生成式 AI 創新的部署。
Amazon SageMaker HyperPod 減輕了建構、優化機器學習基礎設施的繁重工作，將模型訓練時間縮短了高達 40%。Amazon SageMaker HyperPod 預設了 Amazon SageMaker 的分散式訓練庫，使客戶能夠自動將訓練工作負載分配到數千個加速器上，以便同時處理工作負載，提高模型效能。此外，Amazon SageMaker HyperPod 透過定期儲存檢查點確保用戶能夠不間斷地訓練模型。當訓練過程中發生硬體故障時，Amazon SageMaker HyperPod 會自動檢測故障、修復或替換有故障的執行個體，並從最後儲存的檢查點恢復訓練，無需客戶手動管理這一過程，協助客戶在分散式環境中進行數週或數月的訓練而無需中斷。
Amazon SageMaker Inference 有助於降低模型部署成本並縮短延遲時間：企業在部署模型的過程中，不斷尋找優化效能的方法。為了降低部署成本和減少回應延遲，客戶使用 Amazon SageMaker 在新的機器學習基礎設施加速器上部署模型，如 AWS Inferentia 和 GPU。然而，有些模型沒有充分利用這些執行個體提供的加速器，導致硬體資源使用效率低。有些企業還將多個模型部署到同一個執行個體上，以便更好地利用所有可用的加速器，但這需要複雜的基礎設施規劃，既耗時又難以管理。當多個模型共用同一個執行個體時，每個模型都有自己的擴充需求和使用模式，因此很難預測客戶何時需要增加或減少執行個體。例如，一個模型用於在特定時間內使用量可能激增的應用程式，而另一個模型可能具有更穩定的使用模式。除了優化成本，客戶還希望透過降低延遲來提供理想的用戶體驗。由於模型的產出規模從一句話到一整篇文章不等，因此完成推論所需的時間差異很大。如果使用執行個體之間的隨機途徑，就會難以預測延遲高峰。Amazon SageMaker 現在支援新的推論功能，幫助客戶降低部署成本和延遲時間。透過這些新功能，客戶可以將多個模型部署到同一個執行個體上，更好地善用底層加速器，平均部署成本可降低 50%。客戶還可以分別控制每個模型的擴充策略，找到更適應模型的使用模式，同時優化基礎設施成本。Amazon SageMaker 能夠密切監測正在處理推論的執行個體，並根據可用的執行個體智慧發送需求，平均降低 20% 的推論延遲。

新功能能夠幫助客戶評估模型，並根據使用場景選擇最適合的模型

客戶在為生成式 AI 應用程式挑選模型時有很多選擇，並希望能快速比較這些模型，根據相關品質和負責任的 AI 參數（如準確性、公平性和穩健性）找到最適合的選擇。然而，當比較執行相同功能（例如文本生成或摘要）或屬於同一系列（例如 Falcon 40B 與 Falcon 180B）的模型時，每個模型在各種負責任的 AI 參數上表現都不相同。即使是在兩個不同資料庫上微調相同的模型，效能也存在差異，這將很難確定哪個版本效果更佳。如要開始比較模型，企業必須先花費數天時間訂定相關標準，設定評估工具並對每個模型進行評估。儘管客戶可以查閱公開可用的模型標準，但通常無法根據代表特定使用場景的提示詞來評估模型的效能。此外，這些標準通常難以理解，也不適用於評估品牌形象、相關性和風格。另外，企業還需耗時透過人工分析結果，並在每個新使用場景或微調模型重複此過程。

Amazon SageMaker Clarify 可以幫助客戶根據所選參數評估、比較和選擇適合特定使用場景的最佳模型，以助力企業負責任地使用 AI。借助 Amazon SageMaker Clarify 的新功能，客戶可以輕鬆評估自己的模型，或透過 Amazon SageMaker JumpStart 選擇模型。在 Amazon SageMaker Studio 中，客戶可以選擇針對特定任務進行模型比較，例如問答或內容摘要。然後，客戶選擇評估參數並上傳自己的提示詞資料庫，或者從內建的公開資料庫中進行選擇。對於需要複雜人工判斷的敏感標準或精確內容，客戶可以請內部員工協助，或由 SageMaker Ground Truth 提供的託管工作人員，使用回饋機制在幾分鐘內審查並回覆。一旦客戶完成設定，Amazon SageMaker Clarify 將會進行評估並生成報告，以便客戶可以根據效能標準快速評估、比較和選擇最佳模型。

Amazon SageMaker Canvas 新功能使客戶更輕鬆、更快速地將生成式 AI 整合到工作流程中

Amazon SageMaker Canvas 幫助客戶建構機器學習模型並生成預測，而無需編寫程式碼。這次擴充了 Amazon SageMaker Canvas 的現有功能，幫助客戶在無程式碼環境中使用模型來支援各種使用場景。

使用自然語言指令準備資料：Amazon SageMaker Canvas 中的視覺化介面已經讓沒有機器學習專業知識的人也可以輕鬆準備資料，但有些客戶還希望能以更快、更直觀的方式瀏覽資料庫。客戶現在可以透過範例快速入門，並在過程中隨時提問以簡化資料準備工作。客戶還可以使用自然語言指令進行複雜的轉換，解決常見的資料問題，例如填補欄目中缺失的數值。透過新的無程式碼介面，客戶可以大大簡化在 Amazon SageMaker Canvas 上處理資料的方式，將準備資料所需的時間從數小時縮短至數分鐘。
利用模型進行大規模業務分析：客戶使用 Amazon SageMaker Canvas 建構機器學習模型，並為各種工作生成預測，包括需求預測、客戶流失預測和金融投資組合分析等。在過去，客戶已經可透過 Amazon SageMaker Canvas 使用Amazon Bedrock 上的多個模型，包括來自 AI21 Labs、Anthropic 和亞馬遜的模型，以及來自 MosaicML、TII 和 Amazon SageMaker JumpStart 的模型。在相同的無程式碼介面，客戶現在可以上傳資料庫並選擇模型，Amazon SageMaker Canvas 會自動幫助客戶建構訂製模型，立即生成預測。Amazon SageMaker Canvas 還可以顯示效能指標，讓客戶可以使用模型生成預測，並了解基礎模型在特定任務上的表現。

Hugging Face 是領先的機器學習公司和開放平台，為 AI 建構提供了開放的基礎模型以及打造模型所需的工具。Hugging Face 產品負責人 Jeff Boudier 表示：「Hugging Face 一直使用 Amazon SageMaker HyperPod 打造最新的開放基礎模型，如 StarCoder、IDEFICS 和 Zephyr，這些模型已被下載了數百萬次。Amazon SageMaker HyperPod 專為高彈性和效能建構的功能使我們的開放科學團隊能夠專注於創新，並改善基礎模型的建構方式，而非管理基礎設施。Amazon SageMaker HyperPod 能夠檢測機器學習硬體故障，並快速替換故障的硬體，且不會中斷正在進行的模型訓練。由於我們的團隊需要快速創新，自動化作業恢復功能幫助我們在基礎模型訓練過程中減少中斷情況，讓我們在一年內節省了數百小時的訓練時間。」

領先的 AI 客戶關係管理（CRM）公司 Salesforce，透過資料、AI 和 CRM，提高了生產力，創造了可信賴的客戶體驗。Salesforce 工程副總裁 Bhavesh Doshi表示：「我們對基礎模型採用開放系統，而 Amazon SageMaker 扮演重要的角色，幫助我們擴充架構並加速進入市場。使用新的 Amazon SageMaker 推論功能，我們能夠將所有模型放入單一的 Amazon SageMaker 端點，該端點可以自動處理所有資源分配和共享運算資源，在提高效能的同時降低了基礎模型的部署成本。」

湯森路透是領先的資訊供應商，也是全球最值得信賴的新聞機構之一。湯森路透 AI、BI（Business Intelligence）與資料平台副總裁 Maria Apazoglou 表示：「我們的工程師面臨的挑戰是在尖峰時段有效管理客服需求，以確保聘請合適數量的客服人員來處理激增的電話。對來電量、等待時間、日期等關鍵指標的資料進行歷史分析是一項耗時的工作。我們的團隊使用 Amazon SageMaker Canvas 中新的資料準備和訂製功能，對公司資料進行模型訓練，進而分析尖峰時段來電量的模式和趨勢，這讓我們使用自有資料建構機器學習模型變得非常簡便。我們期待透過 Amazon SageMaker Canvas 增加對基礎模型的使用，而無需編寫任何程式碼。」

本文章內容由「Amazon Web Services (AWS)」提供。

文章版權歸作者所有，未經允許請勿轉載。

THE END