- Amazon SageMaker Role Manager 讓管理員可以更輕鬆控制存取和定義許可權,提升機器學習治理
- Amazon SageMaker Model Cards 可以更方便地在機器學習生命週期中記錄和檢查模型資訊
- Amazon SageMaker Model Dashboard 提供集中介面以追蹤模型、監控效能和查看歷史紀錄
- Amazon SageMaker Studio Notebook 提供全新資料準備功能,幫助客戶輕鬆點擊檢查和解決資料品質
- 資料科學團隊可以在 Amazon SageMaker Studio Notebook 內即時協作
- 客戶可以將 Notebook 代碼自動轉換為生產環境就緒執行任務
- 自動模型驗證功能讓客戶使用即時推論測試新模型
- 支援地理空間資料,讓客戶能輕鬆開發氣候科學、城市規劃、災難回應、零售計劃、精準農業等產業機器學習模型
Amazon Web Services(AWS)在 2022 AWS re:Invent 全球盛會上宣布推出八項端到端流程機器學習服務 Amazon SageMaker 新功能。眾多開發人員、資料科學家和業務分析師使用 Amazon SageMaker 提供的全託管基礎設施、工具和工作流程,輕鬆快速地建構、訓練和部署機器學習模型。隨著機器學習的技術不斷創新,模型建立的需求也與日俱增。因此,客戶需要進階功能以有效管理模型的開發、使用與性能。在 AWS 發布的新功能中,包括 Amazon SageMaker 治理功能以在整個機器學習生命週期中提供模型性能的可識性;而新的 Amazon SageMaker Studio Notebook 能提供加強的 Notebook 體驗,客戶只需輕鬆點擊幾下即可檢查與解決資料品質問題,促進資料科學團隊之間的即時協作,並透過將 Notebook 代碼轉換至自動化作業中,以加速機器學習實驗到生產環境的過程。最後,Amazon SageMaker 新功能可自動執行模型驗證,並且讓地理空間資料處理更加容易。
AWS 人工智慧和機器學習副總裁 Bratin Saha 表示:「截至目前為止,各行各業數以萬計且不同規模的客戶都在使用 Amazon SageMaker。AWS 客戶每月建構數百萬個模型、訓練數十億參數規模的模型,並生成數萬億個預測。也有許多客戶正以前所未聞的規模使用機器學習。今天發布的 Amazon SageMaker 新功能讓團隊更輕鬆地加快機器學習模型端到端的開發與部署。從專門建構的治理工具,到下一代 Notebook 體驗與簡化模型測試,再到對地理空間資料的加強支援,我們在 Amazon SageMaker 的基礎上不斷創新,幫助客戶大規模運用機器學習。」
對許多用戶而言,雲端運算使機器學習技術觸手可及。而在幾年前,建構、訓練和部署模型的過程仍然是艱難乏味的。人手不多的資料科學家團隊需要進行為期數週或數月的反覆運算,才能使模型達到生產環境水準。AWS 於五年前推出 Amazon SageMaker 以應對這些挑戰,此後陸續增加 250 多項新功能,讓客戶更輕鬆地在多項業務中使用機器學習。現今有些客戶聘請數百名專業人員,使用 Amazon SageMaker 做預測,用以改善客戶體驗、優化業務流程,以及加速新產品和服務開發等嚴峻挑戰。隨著機器學習應用日新月異,客戶使用的資料類型不斷增加,需要的治理、自動化和品質水準也與日俱增。奠基於 Amazon SageMaker 的特性,此次新發布的功能也致力於為全球各種不同技術水準的專業人員提供支援。
Amazon SageMaker 機器學習治理新功能
Amazon SageMaker 新功能可以幫助客戶更輕鬆地在機器學習模型週期中大規模治理。隨著企業內模型和使用者數量的增加,配置最低許可權的存取控制與建立治理流程以記錄模型資訊(如輸入資料集、訓練環境資訊、模型使用描述和風險層級)都越趨困難。部署模型後,客戶還需要監測偏差和特性偏移,從而確保模型如期運行。
- Amazon SageMaker Role Manager 可以更輕鬆地控制存取和許可權:適當的用戶存取管控是治理的基礎,以保護資料隱私、防止資訊洩露,並確保專業人員可以存取所需工具。然而,一旦資料科學團隊增加到數十甚至數百人,管控就會變得越來越複雜。機器學習管理員(建立和監控企業內機器學習系統的人)必須平衡對簡化開發的需求和對管控機器學習工作流程內的任務、資源和資料存取的需求。現今,管理員往往透過建立試算表或使用臨時列表維繫數十種不同活動(如資料準備和訓練)和角色(如機器學習工程師和資料科學家)所需的存取策略。此工具需要手動維護,且可能需要數週才能確認新用戶有效完成工作所需的任務。Amazon SageMaker Role Manager 讓管理員可以更輕鬆地控制存取並為用戶定義許可權限。管理員可以根據不同的使用者角色和職責選擇和編輯預建範本,並在幾分鐘內自動建立必要許可權的存取策略,以減少管理用戶所投入的時間和精力。
- Amazon SageMaker Model Cards 簡化模型資訊收集:目前,大多數專業人員依靠不同工具(如電子郵件、試算表和文字檔)記錄模型開發和評估期間的業務需求、關鍵決策和觀察結果。專業人員需要這些資訊以審視工作流程、註冊、審查、客戶查詢和監控。然而,蒐集這些詳細資訊需要耗時數月。有些專業人員試圖透過建構複雜的記錄保存系統以解決問題,但需要手動操作,且過程耗時並容易出錯。Amazon SageMaker Model Cards 在 AWS 控制台提供單一的位置儲存模型資訊,在整個模型週期中簡化文檔管理。新功能會自動將輸入資料集、訓練環境和訓練結果等詳細訓練資訊直接輸入到 Amazon SageMaker Model Cards。用戶也能使用自助問卷的形式保存模型資訊(如成效目標、風險評等)、訓練和驗證結果(如偏差或精準度指標)以及觀察結果供未來參考,以便進一步提升治理水準。
- Amazon SageMaker Model Dashboard 提供集中介面以追蹤機器學習模型:模型部署到生產環境後,專業人員希望不斷追蹤模型以瞭解其運作效能並識別潛在問題,通常每個模型皆會單獨完成。然而,當企業開始部署數千個模型時,此方式將越趨複雜,且仰賴大量的時間和資源。Amazon SageMaker Model Dashboard 可以完整概覽已部署的模型和端點,讓專業人員只需在統一的集中介面即可追蹤資訊和模型行為。透過此集中介面,客戶也能使用內建整合的Amazon SageMaker Model Monitor(具備模型與資料偏移監控功能)和 Amazon SageMaker Clarify(具備機器學習偏差檢測功能)。這種對模型行為和效能的端到端可識性能為簡化機器學習治理流程、快速解決模型問題提供必要資訊。欲瞭解 Amazon SageMaker 治理功能的更多資訊,請參閱此連結。
下一代 Notebook
Amazon SageMaker Studio Notebook 為專業人員提供從資料探索到部署的全託管 Notebook 體驗。隨著團隊規模和複雜性日益增加,可能有數十名專業人員需要使用 Notebook 協作開發模型。AWS 推出三項新功能幫助客戶協作和自動化 Notebook 代碼,進一步為用戶提供最佳 Notebook 體驗。
- 簡化資料準備:專業人員在準備訓練資料時,希望直接在 Notebook 中探索資料集,以發現和糾正潛在的資料品質問題(如資訊缺失、極端值、資料集失真和偏差),專業人員可能耗時數月編寫樣板代碼,將不同部分的資料集視覺化、檢查資料集,以識別和修復問題。Amazon SageMaker Studio Notebook 提供內建資料準備功能,讓專業人員只需輕鬆點擊,即可直接查看資料特性並修復資料品質。一切都直接在 Notebook環境進行。當使用者在 Notebook 中顯示 data frame(即資料的表格形式)時,Amazon SageMaker Studio Notebook 會自動產生圖表,幫助使用者識別資料品質問題、提供資料轉換建議,並解決常見問題。專業人員選擇資料轉換後,Amazon SageMaker Studio Notebook 會在 Notebook 中生成相應程式碼,可供每次運行 Notebook 時重複應用。
- 加速資料科學團隊的協作:準備好資料後,專業人員就可以開始開發模型。這是一個反覆運算的過程,可能需要團隊成員在同一個 Notebook 中進行協作。在此之前,團隊必須透過電子郵件或聊天應用程式交換 Notebook 和其他資產(如模型和資料集),以便在 Notebook 上即時協作,這會導致溝通疲勞、回饋延遲和版本不一等問題。Amazon SageMaker 提供統一的工作區域,讓團隊成員可以在其中即時閱讀、編輯和運行 Notebook,以簡化協調和溝通。團隊成員可以一起查看 Notebook 成果,即時瞭解模型效能,且無需反覆傳遞資訊。此外,Amazon SageMaker Studio Notebook 支援 BitBucket 和 Amazon CodeCommit 等服務,團隊可以輕鬆管理不同的 Notebook 版本,並比對版本變更。如實驗和機器學習模型等附加資源也會自動保存,使團隊工作井然有序。
- Notebook 代碼自動轉換為生產環境就緒的執行任務:當專業人員要將訓練完成的機器學習模型運用到生產環境中時,通常需要將代碼片段從 Notebook 複製到一個腳本,再將腳本及所有連帶項目整合至容器中,最後調度容器執行。要排程重複執行此任務,必須搭建、配置和管理持續性的整合和交付(CI/CD)管道,才能實現自動化部署。搭建所有必要的基礎設施可能需要數週時間,這將佔用核心的機器學習開發時間。Amazon SageMaker Studio Notebook 能讓專業人員選擇一個 Notebook,並自動化為能在生產環境運行的任務。Notebook 選定後,Amazon SageMaker Studio Notebook 會建立整個 Notebook 的快照,將連帶項目整併至容器,建構基礎設施,並按既定時程將 Notebook 視為自動化任務執行,當任務完成時釋放基礎設施,這將 Notebook 投入生產所需時間從數週縮短至數小時。欲瞭解更多下一代 Amazon SageMaker Studio Notebook 新功能,請參閱此連結。
使用即時推論請求,自動驗證新模型
在部署到生產環境前,專業人員會測試和驗證每個模型,檢查模型效能並識別可能對業務產生負面影響的錯誤。專業人員會使用過去的推論請求資料測試新模型的效能,但這些資料有時無法代表當前的真實推論請求。例如用於規劃最快路線的機器學習模型歷史資料,可能無法代表交通事故或突然封鎖道路時交通流量的改變。為解決這個問題,專業人員將發送到生產環境模型的推論請求建立副本,並路由引導至他們想要測試的新模型。這將耗時數週以建構測試基礎設施、複製推論請求、比較新模型在關鍵指標(如延遲和輸送量)上的表現。雖然這讓專業人員對模型的執行情況更有信心,但數百至數千個模型實施解決方案的成本和複雜性太高,因而無法規模化。
Amazon SageMaker Inference 提供一種新功能,讓專業人員更輕鬆地即時使用相同的真實推論請求資料,將新模型的效能與生產環境模型的效能進行比較。現在,他們可以將測試同時擴展至數千個新模型中,無需建構測試基礎設施。首先,客戶選擇想要測試的生產環境模型,Amazon SageMaker Inference 隨後會將新模型部署到具有完全相同條件的託管環境。Amazon SageMaker 將生產環境模型收到的推論請求副本路由到新模型,並建立效能儀表板(Dashboard)顯示關鍵指標之間的效能差異,客戶便可以即時瞭解每個模型的不同之處。客戶一旦驗證新模型的效能並確認無誤,便可安全地部署。欲瞭解更多 Amazon SageMaker Inference 的詳細資訊,請參閱此連結。
Amazon SageMaker 全新的地理空間功能使客戶更輕鬆地使用衛星定位及地理位置資料進行預測
目前大部分收集到的資料都包含地理空間資訊(如位置座標、天氣圖和交通資料),但由於地理空間資料集難以處理,通常為達到 PB 級規模,且跨越整個城市或數百公里土地,因此應用於機器學習的地理空間資訊只有少部分。要建構地理空間模型時,客戶會採購衛星圖像或地圖資料等第三方資料來源補充專有資料。由於地理空間資料規模龐大,專業人員需要整併這些資料,準備資料以用於訓練,並編寫程式碼將資料集劃分為可管理的資料子集。當客戶準備部署訓練好的模型時,他們必須編寫更多程式碼以重新組合多個資料集,將資料和機器學習模型預測連接。為了從完成的模型中擷取預測結果,專業人員需要花費數天使用開源的視覺化工具在地圖上做渲染。從資料優化到視覺化,整個過程可能耗時數月,使得客戶難以利用地理空間資料及時產生機器學習預測。
Amazon SageMaker 協助客戶豐富資料集、訓練地理空間模型並將結果視覺化的時間從數月縮短到數小時,加速和簡化地理空間機器學習預測。客戶只需點擊或運用 API就可以使用 Amazon SageMaker 存取各種地理空間資料來源,如AWS的位置服務 Amazon Location Service、開放資料集 Amazon Open Data、客戶自有資料和來自 Planet Labs 等第三方供應商的資料。當專業人員選擇想要使用的資料集,他們可以利用內建的運算器將這些資料集與自己的專有資料合併。為了加快模型開發,Amazon SageMaker 提供預先訓練的深度學習模型,其支援的案例包括透過精準農業預測提高作物產量、監測自然災害後區域恢復的情況,以及城市規劃等。訓練完成後,內建的視覺化工具會在地圖上顯示資料與新的預測。欲瞭解更多 Amazon SageMaker 全新的地理空間功能,請參閱此連結。
Capitec Bank 是南非最大的數位銀行,擁有超過 1000 萬的客戶。Capitec Bank 機器學習工程師 Dean Matter 表示:「Capitec 在各個產品線皆擁有許多資料科學家,以建構不同的機器學習解決方案。我們的機器學習工程師管理一個以 Amazon SageMaker 為基礎建構的集中式建模平台,支援所有機器學習解決方案的開發和部署。在沒有任何內建工具的情況下,追蹤建模工作往往會發生文件脫節,模型缺乏可識性等問題。借助 Amazon SageMaker Model Cards,我們可以在統一的環境中追蹤大量的模型中繼資料;而 Amazon SageMaker Model Dashboard 提供每個模型效能的可識性。此外,Amazon SageMaker Role Manager 也簡化對不同產品線資料科學家進行的存取管理。每一項功能都有助於模型治理,以確保客戶對我們的信任。」
EarthOptics 是一家土壤資料測量和製圖公司,利用專有感測器技術和資料分析,精確測量土壤健康狀況和土壤結構。EarthOptics 執行長 Lars Dyrud 表示:「我們希望使用機器學習幫助客戶利用經濟實惠的土壤地圖提高農作物產量。Amazon SageMaker 的地理空間機器學習功能,使我們能夠使用多個資料來源快速建立演算法模型,並將研究和部署生產環境 API 之間的時間縮短到一個月。受益於 Amazon SageMaker,我們為美國各地的農場和牧場部署土壤固碳的地理空間解決方案。」
HERE Technologies 是一個具領導性的地理位置資料(location data)和技術平台,幫助客戶建立自訂地圖和以高精準度位置資料為基礎的位置體驗。HERE Technologies 產品和技術長 Giovanni Lanfranchi 表示:「我們的客戶需要即時情境資訊,利用空間模式(spatial pattern)和趨勢洞察做出業務決策。我們依靠機器學習自動從不同資料來源獲取地理位置資料,加強資料的情境資訊,並加速資料分析。Amazon SageMaker 讓我們在生產環境中更嚴格且主動地測試機器學習模型,避免對客戶造成不利的影響,或因為部署模型出錯導致中斷。這對我們至關重要,因為客戶期待根據瞬息萬變的地理位置資料提供及時見解。」
Intuit 是全球性的金融技術平台,透過 TurboTax、Credit Karma、QuickBooks 和Mailchimp 等產品,支援全球超過 1 億客戶的發展。Intuit 工程暨產品開發總監 Brett Hollman 表示:「我們正在釋放資料的力量,為我們平台上的消費者、經營者和小型企業帶來金融改革。為了進一步提高團隊效率,並將 AI 驅動的產品快速推向市場,我們與 AWS 密切合作,設計 SageMaker Studio Notebook 中全新的團隊協作功能。我們成功簡化溝通和協作,讓我們的團隊能夠使用 Amazon SageMaker Studio 將機器學習規模化。」
欲瞭解更多 Amazon SageMaker 的詳細資訊,請參閱此連結。
本文章內容由「Amazon Web Services (AWS)」提供。
暂无评论内容