Amazon SageMaker Role Manager可以更輕鬆地控制存取和許可權:適當的用戶存取管控是治理的基礎,以保護資料隱私、防止資訊洩露,並確保專業人員可以存取所需工具。然而,一旦資料科學團隊增加到數十甚至數百人,管控就會變得越來越複雜。機器學習管理員(建立和監控企業內機器學習系統的人)必須平衡對簡化開發的需求和對管控機器學習工作流程內的任務、資源和資料存取的需求。現今,管理員往往透過建立試算表或使用臨時列表維繫數十種不同活動(如資料準備和訓練)和角色(如機器學習工程師和資料科學家)所需的存取策略。此工具需要手動維護,且可能需要數週才能確認新用戶有效完成工作所需的任務。Amazon SageMaker Role Manager讓管理員可以更輕鬆地控制存取並為用戶定義許可權限。管理員可以根據不同的使用者角色和職責選擇和編輯預建範本,並在幾分鐘內自動建立必要許可權的存取策略,以減少管理用戶所投入的時間和精力。 Amazon SageMaker Model Cards簡化模型資訊收集:目前,大多數專業人員依靠不同工具(如電子郵件、試算表和文字檔)記錄模型開發和評估期間的業務需求、關鍵決策和觀察結果。專業人員需要這些資訊以審視工作流程、註冊、審查、客戶查詢和監控。然而,蒐集這些詳細資訊需要耗時數月。有些專業人員試圖透過建構複雜的記錄保存系統以解決問題,但需要手動操作,且過程耗時並容易出錯。Amazon SageMaker Model Cards在AWS控制台提供單一的位置儲存模型資訊,在整個模型週期中簡化文檔管理。新功能會自動將輸入資料集、訓練環境和訓練結果等詳細訓練資訊直接輸入到Amazon SageMaker Model Cards。用戶也能使用自助問卷的形式保存模型資訊(如成效目標、風險評等)、訓練和驗證結果(如偏差或精準度指標)以及觀察結果供未來參考,以便進一步提升治理水準。 Amazon SageMaker Model Dashboard提供集中介面以追蹤機器學習模型:模型部署到生產環境後,專業人員希望不斷追蹤模型以瞭解其運作效能並識別潛在問題,通常每個模型皆會單獨完成。然而,當企業開始部署數千個模型時,此方式將越趨複雜,且仰賴大量的時間和資源。Amazon SageMaker Model Dashboard可以完整概覽已部署的模型和端點,讓專業人員只需在統一的集中介面即可追蹤資訊和模型行為。透過此集中介面,客戶也能使用內建整合的Amazon SageMaker Model Monitor(具備模型與資料偏移監控功能)和Amazon SageMaker Clarify(具備機器學習偏差檢測功能)。這種對模型行為和效能的端到端可識性能為簡化機器學習治理流程、快速解決模型問題提供必要資訊。欲瞭解 Amazon SageMaker治理功能的更多資訊,請參閱此連結。
下一代Notebook Amazon SageMaker Studio Notebook為專業人員提供從資料探索到部署的全託管Notebook體驗。隨著團隊規模和複雜性日益增加,可能有數十名專業人員需要使用Notebook協作開發模型。AWS推出三項新功能幫助客戶協作和自動化Notebook代碼,進一步為用戶提供最佳Notebook體驗。
簡化資料準備:專業人員在準備訓練資料時,希望直接在Notebook中探索資料集,以發現和糾正潛在的資料品質問題(如資訊缺失、極端值、資料集失真和偏差),專業人員可能耗時數月編寫樣板代碼,將不同部分的資料集視覺化、檢查資料集,以識別和修復問題。Amazon SageMaker Studio Notebook提供內建資料準備功能,讓專業人員只需輕鬆點擊,即可直接查看資料特性並修復資料品質。一切都直接在Notebook環境進行。當使用者在Notebook中顯示data frame(即資料的表格形式)時,Amazon SageMaker Studio Notebook會自動產生圖表,幫助使用者識別資料品質問題、提供資料轉換建議,並解決常見問題。專業人員選擇資料轉換後,Amazon SageMaker Studio Notebook會在Notebook中生成相應程式碼,可供每次運行Notebook時重複應用。 加速資料科學團隊的協作:準備好資料後,專業人員就可以開始開發模型。這是一個反覆運算的過程,可能需要團隊成員在同一個Notebook中進行協作。在此之前,團隊必須透過電子郵件或聊天應用程式交換Notebook和其他資產(如模型和資料集),以便在Notebook上即時協作,這會導致溝通疲勞、回饋延遲和版本不一等問題。Amazon SageMaker提供統一的工作區域,讓團隊成員可以在其中即時閱讀、編輯和運行Notebook,以簡化協調和溝通。團隊成員可以一起查看Notebook成果,即時瞭解模型效能,且無需反覆傳遞資訊。此外,Amazon SageMaker Studio Notebook支援BitBucket和 Amazon CodeCommit 等服務,團隊可以輕鬆管理不同的Notebook版本,並比對版本變更。如實驗和機器學習模型等附加資源也會自動保存,使團隊工作井然有序。 Notebook代碼自動轉換為生產環境就緒的執行任務:當專業人員要將訓練完成的機器學習模型運用到生產環境中時,通常需要將代碼片段從Notebook複製到一個腳本,再將腳本及所有連帶項目整合至容器中,最後調度容器執行。要排程重複執行此任務,必須搭建、配置和管理持續性的整合和交付(CI/CD)管道,才能實現自動化部署。搭建所有必要的基礎設施可能需要數週時間,這將佔用核心的機器學習開發時間。Amazon SageMaker Studio Notebook能讓專業人員選擇一個Notebook,並自動化為能在生產環境運行的任務。Notebook選定後,Amazon SageMaker Studio Notebook會建立整個Notebook的快照,將連帶項目整併至容器,建構基礎設施,並按既定時程將Notebook視為自動化任務執行,當任務完成時釋放基礎設施,這將Notebook投入生產所需時間從數週縮短至數小時。欲瞭解更多下一代Amazon SageMaker Studio Notebook新功能,請參閱此連結。
Amazon SageMaker協助客戶豐富資料集、訓練地理空間模型並將結果視覺化的時間從數月縮短到數小時,加速和簡化地理空間機器學習預測。客戶只需點擊或運用API就可以使用Amazon SageMaker存取各種地理空間資料來源,如AWS的位置服務Amazon Location Service、開放資料集Amazon Open Data、客戶自有資料和來自Planet Labs等第三方供應商的資料。當專業人員選擇想要使用的資料集,他們可以利用內建的運算器將這些資料集與自己的專有資料合併。為了加快模型開發,Amazon SageMaker提供預先訓練的深度學習模型,其支援的案例包括透過精準農業預測提高作物產量、監測自然災害後區域恢復的情況,以及城市規劃等。訓練完成後,內建的視覺化工具會在地圖上顯示資料與新的預測。欲瞭解更多Amazon SageMaker全新的地理空間功能,請參閱此連結。
Capitec Bank是南非最大的數位銀行,擁有超過1000萬的客戶。Capitec Bank機器學習工程師Dean Matter表示:「Capitec在各個產品線皆擁有許多資料科學家,以建構不同的機器學習解決方案。我們的機器學習工程師管理一個以Amazon SageMaker為基礎建構的集中式建模平台,支援所有機器學習解決方案的開發和部署。在沒有任何內建工具的情況下,追蹤建模工作往往會發生文件脫節,模型缺乏可識性等問題。借助Amazon SageMaker Model Cards,我們可以在統一的環境中追蹤大量的模型中繼資料;而Amazon SageMaker Model Dashboard提供每個模型效能的可識性。此外,Amazon SageMaker Role Manager也簡化對不同產品線資料科學家進行的存取管理。每一項功能都有助於模型治理,以確保客戶對我們的信任。」