Amazon Athena for Apache Spark將互動式分析的啟動時間縮短至1秒內:客戶使用無伺服器互動式查詢服務Amazon Athena,因為Amazon Athena使用標準SQL介面在Amazon Simple Storage Service(Amazon S3)查詢資料,這是查詢PB級資料最方便、最快的方式之一。很多客戶也希望能更輕鬆地在Apache Spark上作業,Apache Spark是一種開源處理框架,支援Java、Scala、Python和R等主流語言框架的大數據工作負載,開發人員雖然很喜歡Apache Spark的快速查詢速度和易用性,但他們不想在每次查詢時都花時間建立、管理和擴展Apache Spark基礎設施。現在,使用Amazon Athena for Apache Spark,客戶已無需自己預先設定、配置和擴展資源。互動式Apache Spark應用的啟動時間不到1秒,執行速度比使用開源的AWS優化版Spark執行時更快。整合Amazon Athena與其他AWS服務後,客戶可以從多個來源查詢資料,將運算串連、進行複雜的分析且將結果視覺化。Amazon Athena for Apache Spark會根據應用需求自動決定所需的資源,並且按需求擴展,因此客戶只需為他們執行的查詢付費。欲瞭解使用Amazon Athena for Apache Spark,請參閱此連結。
AWS Glue Data Quality自動監控和管理資料的即時性、準確性和完整性:成千上萬客戶使用AWS Glue快速、輕鬆且符合經濟效益地建立和管理資料管道。企業需要監控資料湖和資料管道中的資料品質以衡量資料的即時性、準確性和完整性,確保資料品質,再將其用於分析或機器學習等應用。但資料品質管理是一項耗時且複雜的過程,需要資料工程師花費數天時間蒐集資料的詳細統計數字,並根據統計數字手動辨識資料品質規則,並將其應用於數千個資料集和資料管道。實施這些規則之後,資料工程師必須持續監控資料中的錯誤或變化,並作出相應調整。AWS Glue Data Quality可以自動測量、監控和管理Amazon S3資料湖和AWS Glue資料管道的資料品質,將資料分析和規則辨識的時間從幾天縮短到幾小時。AWS Glue Data Quality可以運算客戶資料集的統計數字,例如最小值、最大值、長條圖和相關性等,使用統計數字自動推薦規則,確保資料的即時性、準確性和完整性。客戶可以安排AWS Glue Data Quality在資料發生變化時定期執行,自動分析資料並提出品質規則的更改建議以確保相關性。一旦資料品質出現問題,資料工程師無需編寫代碼,即可設定使用者提醒或停用資料管道。欲瞭解有關AWS Glue Data Quality的更多資訊,請參閱此連結。
Genpact提供的riskCanvas是一款軟體即服務(Software as a Service,SaaS)產品,也是金融犯罪合規解決方案。利用頂尖的大數據、自動化和機器學習技術,幫助客戶保障合規、提高效率並實現自動化。riskCanvas技術長暨Genpact金融犯罪技術副總裁Ryan Skousen表示:「riskCanvas以實體為中心的監控納入交易監測、外部資源、監測列表篩選和負面新聞,以自動評估風險。僅在客戶的真實風險超過預定義值時,提醒高風險客戶,從而大幅減少合規要求的工作量。此技術需要大量且多樣化的分析處理,通常會遇到高峰期和不可預測的資料負載。我們很高興可以使用Amazon OpenSearch Serverless,其自動擴展性滿足工作負載的資料導入和分析處理需求,並可隨著需求減少而縮減規模,大幅降低成本,而不需要重新設計或維護。」
美國金融業監管局(FINRA)是美國的證券公司監管機構,負責監管股票、債券和期貨交易。美國金融業監管局資深主管Ratnakar Korem表示:「美國金融業監管局在Amazon Athena上開發應用,使分析師和業務合作夥伴安全地查詢每天更新的數個TB級金融交易資料。我們很高興使用Amazon Athena for Apache Spark。Amazon Athena的快速和易用性優勢將極大助益我們的按需分析和批次處理分析。美國金融業監管局將透過此無伺服器功能分析大數據,而不需花費精力明確定義運算資源以及調整Apache Spark效能。最終有助於法規使用者和資料分析師快速回應不斷變化的市場動態,節省成本和時間。」
美國聯合航空(United Airlines)經營橫跨美國和六大洲大小城市的龐大國內和國際航線網路。美國聯合航空資料工程總監Sarang Bapat表示:「聯合航空為客戶和員工建構數百個資料和分析驅動工具,管理和維護資料品質,對我們的營運至關重要。我們很高興運用AWS Glue Data Quality,使我們在幾分鐘內自動辨識和分析資料品質問題並採取行動,協助我們節省花在手動辨識和修復資料問題上的大量時間,做出明智、及時並準確的決策。」