AWS推出五項資料庫和分析服務功能,提升PB級資料處理能力
Amazon DocumentDB Elastic Clusters可將客戶的文件工作負載擴展到支援每秒寫入數百萬次並儲存PB級資料

Amazon OpenSearch Serverless可協助客戶在無需配置、擴展或管理底層基礎設施的情況下執行搜尋和分析工作負載

Amazon Athena for Apache Spark將讓客戶使用Apache Spark執行互動式分析的時間從數分鐘縮短至一秒內

AWS Glue Data Quality自動測量、監控和管理資料湖與資料管道中的資料品質,將資料分析和規則辨識時間從數天縮短至數小時

Amazon Redshift已可支援橫跨多個AWS可用區域的高可用配置

【台北訊,2022年12月12日】Amazon Web Services(AWS)在2022 AWS re:Invent全球盛會上宣布推出五項涵蓋資料庫和分析產品組合的全新功能,讓客戶能夠更快速輕鬆地管理和分析PB級資料。與MongoDB相容的Amazon DocumentDB、Amazon OpenSearch Service和Amazon Athena的新功能,讓客戶能更輕鬆地大規模執行高效能資料庫和分析工作負載。此外,AWS也發布AWS Glue的新功能,可自動管理橫跨資料湖和資料管道的資料品質。此外,Amazon Redshift現在可支援橫跨多個AWS可用區域(Availability Zones,AZ)的高可用配置。客戶可透過此次推出的新產品,取得適合其資料工作負載的工具,達到大規模營運並提高可用性,從而協助客戶充分利用在AWS上的資料。欲瞭解透過AWS發揮資料價值的更多資訊,請參閱此連結。

AWS資料庫、資料分析和機器學習副總裁Swami Sivasubramanian表示:「資料本來就是動態的,需要端對端的資料策略來充分發揮潛力。資料策略需因應客戶的需求進行調整、適應所有類型的使用案例,不管是現在還是未來。為了協助客戶充分利用不斷成長、海量且多樣化的資料,我們一直致力於提供最廣泛且深入的資料庫和分析服務。今天在這個基礎上推出的新功能,可以讓客戶更方便地查詢和管理資料並擴大資料規模,從而更快地做出資料驅動的決策。」

現今,企業產生和儲存的資料已達PB級甚至EB級,資料來源也日益多樣化,包含數位媒體、線上交易和各種網路連接設備。為了發揮這些資料的最大價值,客戶需要端對端的資料策略,為所有資料工作負載和應用提供合適的工具,當資料量增大、增加速度提升時,仍可大規模且可靠地執行。為了支援客戶設計端對端的資料策略,AWS提供業界最全方位的資料服務和解決方案,其中包含針對客戶最重要的應用場景而優化的全託管資料庫,例如用於關聯式資料庫的Amazon Aurora和用於文件資料庫的Amazon DocumentDB;也有幫助客戶從資料中獲得具有價值的洞察的多項分析服務,包含針對搜尋和分析工作負載(例如即時應用監測、日誌分析和網站搜尋)的Amazon OpenSearch Service、適用於互動式分析的Amazon Athena、用於資料整合的AWS Glue和用於資料倉儲的Amazon Redshift。此次的發布將在這些服務的基礎上提供進階功能。

 Amazon DocumentDB Elastic Clusters以每秒數百萬次寫入的效能為PB級應用提供支援:數以萬計的客戶使用Amazon DocumentDB執行文件工作負載,因其速度快、可擴展、高可用性且完全託管。雖然每個Amazon DocumentDB節點最多可擴展到64TB資料並支援每秒數百萬次讀取請求,但有些客戶的工作負載要求極高,需要超越此限制的擴展能力,以支援每秒數百萬次寫入並儲存PB級資料。以往這些客戶必須在多個Amazon DocumentDB節點間手動拆分資料及管理容量。Amazon DocumentDB Elastic Clusters讓客戶在幾分鐘內擴展,並打破單節點資料庫的限制,以支援每秒數百萬次的讀取與寫入,並儲存高達2PB級的資料。隨著工作負載需求不斷增加,Amazon DocumentDB Elastic Clusters可以利用分散式儲存系統自動將大型資料集分開儲存到多個節點。客戶不再需要編寫自訂代碼、分拆資料集和跨節點手動管理容量。底層基礎設施將進行自動管理,客戶可以根據自身需求輕鬆擴展容量,無需配置、擴展或管理資料庫叢集。欲瞭解有關Amazon DocumentDB Elastic Clusters的更多資訊,請參閱此連結。

 Amazon OpenSearch Serverless自動擴展搜尋和分析工作負載:數以萬計的客戶使用Amazon OpenSearch Service支援網站搜尋和即時應用監控等使用案例,其中許多工作負載容易出現間歇性使用高峰,而難以規劃容量。Amazon OpenSearch Serverless可以自動預先設定、配置和擴展OpenSearch基礎設施,即使針對不可預測和間歇性的工作負載,也可以提供快速導入資料和毫秒級查詢回應。借助Amazon OpenSearch Serverless,資料導入和搜尋資源可以獨立擴展,兩種操作同時執行且不會影響效能。使用Amazon OpenSearch Serverless的客戶可獲得無伺服器帶來的優勢如自動配置、按需求擴展和按使用量付費等,也可獲得Amazon OpenSearch Service的功能如內建的資料視覺化,用以解析日誌資料、辨識異常、查看搜尋相關性排名。欲瞭解有關Amazon OpenSearch Serverless的更多資訊,請參閱此連結。

 Amazon Athena for Apache Spark將互動式分析的啟動時間縮短至1秒內:客戶使用無伺服器互動式查詢服務Amazon Athena,因為Amazon Athena使用標準SQL介面在Amazon Simple Storage Service(Amazon S3)查詢資料,這是查詢PB級資料最方便、最快的方式之一。很多客戶也希望能更輕鬆地在Apache Spark上作業,Apache Spark是一種開源處理框架,支援Java、Scala、Python和R等主流語言框架的大數據工作負載,開發人員雖然很喜歡Apache Spark的快速查詢速度和易用性,但他們不想在每次查詢時都花時間建立、管理和擴展Apache Spark基礎設施。現在,使用Amazon Athena for Apache Spark,客戶已無需自己預先設定、配置和擴展資源。互動式Apache Spark應用的啟動時間不到1秒,執行速度比使用開源的AWS優化版Spark執行時更快。整合Amazon Athena與其他AWS服務後,客戶可以從多個來源查詢資料,將運算串連、進行複雜的分析且將結果視覺化。Amazon Athena for Apache Spark會根據應用需求自動決定所需的資源,並且按需求擴展,因此客戶只需為他們執行的查詢付費。欲瞭解使用Amazon Athena for Apache Spark,請參閱此連結。

 AWS Glue Data Quality自動監控和管理資料的即時性、準確性和完整性:成千上萬客戶使用AWS Glue快速、輕鬆且符合經濟效益地建立和管理資料管道。企業需要監控資料湖和資料管道中的資料品質以衡量資料的即時性、準確性和完整性,確保資料品質,再將其用於分析或機器學習等應用。但資料品質管理是一項耗時且複雜的過程,需要資料工程師花費數天時間蒐集資料的詳細統計數字,並根據統計數字手動辨識資料品質規則,並將其應用於數千個資料集和資料管道。實施這些規則之後,資料工程師必須持續監控資料中的錯誤或變化,並作出相應調整。AWS Glue Data Quality可以自動測量、監控和管理Amazon S3資料湖和AWS Glue資料管道的資料品質,將資料分析和規則辨識的時間從幾天縮短到幾小時。AWS Glue Data Quality可以運算客戶資料集的統計數字,例如最小值、最大值、長條圖和相關性等,使用統計數字自動推薦規則,確保資料的即時性、準確性和完整性。客戶可以安排AWS Glue Data Quality在資料發生變化時定期執行,自動分析資料並提出品質規則的更改建議以確保相關性。一旦資料品質出現問題,資料工程師無需編寫代碼,即可設定使用者提醒或停用資料管道。欲瞭解有關AWS Glue Data Quality的更多資訊,請參閱此連結。

 Amazon Redshift現已支援多可用區域(Multi-AZ)部署:數以萬計的AWS客戶每天使用Amazon Redshift處理總計達EB級的資料。為了支援這些客戶的關鍵任務工作負載,Amazon Redshift提供增加可用性和可靠性的功能,例如自動備份以及在幾分鐘內將叢集重新定位到另一個可用區域的能力。現今,許多資料庫使用主要和備用之間複製模式(primary-standby replication mode)支援高可用性,由單一資料庫為即時流量提供服務,並即時複製資料至備用副本,以備不時之需。以此功能為基礎,Amazon Redshift現在提供高可用配置以達到快速回復,同時最大限度地降低資料遺失風險。借助Amazon Redshift多可用區域功能,客戶可以橫跨多個可用區域部署叢集,並使用所有資源處理讀寫查詢,取消低利用率的備用副本,大幅提高性價比。如同管理單一Amazon Redshift資料倉儲,客戶可以在一個端點管理多可用區域資料庫而無需更改應用,即可保持業務連續性。欲瞭解有關Amazon Redshift多可用區域的更多資訊,請參閱此連結。

Genpact提供的riskCanvas是一款軟體即服務(Software as a Service,SaaS)產品,也是金融犯罪合規解決方案。利用頂尖的大數據、自動化和機器學習技術,幫助客戶保障合規、提高效率並實現自動化。riskCanvas技術長暨Genpact金融犯罪技術副總裁Ryan Skousen表示:「riskCanvas以實體為中心的監控納入交易監測、外部資源、監測列表篩選和負面新聞,以自動評估風險。僅在客戶的真實風險超過預定義值時,提醒高風險客戶,從而大幅減少合規要求的工作量。此技術需要大量且多樣化的分析處理,通常會遇到高峰期和不可預測的資料負載。我們很高興可以使用Amazon OpenSearch Serverless,其自動擴展性滿足工作負載的資料導入和分析處理需求,並可隨著需求減少而縮減規模,大幅降低成本,而不需要重新設計或維護。」

美國金融業監管局(FINRA)是美國的證券公司監管機構,負責監管股票、債券和期貨交易。美國金融業監管局資深主管Ratnakar Korem表示:「美國金融業監管局在Amazon Athena上開發應用,使分析師和業務合作夥伴安全地查詢每天更新的數個TB級金融交易資料。我們很高興使用Amazon Athena for Apache Spark。Amazon Athena的快速和易用性優勢將極大助益我們的按需分析和批次處理分析。美國金融業監管局將透過此無伺服器功能分析大數據,而不需花費精力明確定義運算資源以及調整Apache Spark效能。最終有助於法規使用者和資料分析師快速回應不斷變化的市場動態,節省成本和時間。」

美國聯合航空(United Airlines)經營橫跨美國和六大洲大小城市的龐大國內和國際航線網路。美國聯合航空資料工程總監Sarang Bapat表示:「聯合航空為客戶和員工建構數百個資料和分析驅動工具,管理和維護資料品質,對我們的營運至關重要。我們很高興運用AWS Glue Data Quality,使我們在幾分鐘內自動辨識和分析資料品質問題並採取行動,協助我們節省花在手動辨識和修復資料問題上的大量時間,做出明智、及時並準確的決策。」

楊森藥廠(Janssen Pharmaceuticals)是嬌生旗下成員,致力於研究和生產藥品,並關注患者和醫療保健產業不斷變化的需求。楊森藥廠資訊技術總監Shyam Mohapatra表示:「楊森藥廠使用Amazon Redshift取得關鍵洞察,讓資料科學家、資料管理員、業務使用者和外部利益相關者做出重要的業務決策。Amazon Redshift的多可用區域功能可以確保資料庫隨時可用,不會出現延遲或影響我們做出任何重要的業務決策。」


文章回應

目前尚無回應,成為第一個回應的人吧!

回應本篇文章! (以下回應不會連結到FaceBook)(言責自負,請勿涉及人身攻擊,以免挨告!)

尚未 登入會員 ,無法回應!

gotop