集成整個組織的數(shù)據(jù)可以讓您更好地了解客戶、簡化運(yùn)營并幫助團(tuán)隊做出更好、更快的決策。但整合數(shù)據(jù)并不容易。
通常,組織使用各種工具和系統(tǒng)(例如數(shù)據(jù)攝取服務(wù))從不同來源收集數(shù)據(jù)。數(shù)據(jù)通常存儲在孤島中,這意味著必須將其移至數(shù)據(jù)湖或數(shù)據(jù)倉庫中,然后才能運(yùn)行分析、人工智能 (AI) 或機(jī)器學(xué)習(xí) (ML) 工作負(fù)載。在數(shù)據(jù)準(zhǔn)備好進(jìn)行分析之前,需要對其進(jìn)行組合、清理和規(guī)范化,這一過程也稱為提取、轉(zhuǎn)換、加載 (ETL),這可能非常費(fèi)力且容易出錯。
在 AWS,我們的目標(biāo)是讓組織更輕松地連接到所有數(shù)據(jù),并以客戶所需的速度和敏捷性實(shí)現(xiàn)這一點(diǎn)。我們基于以下目標(biāo)開發(fā)了實(shí)現(xiàn)零 ETL 未來的開創(chuàng)性方法:打破數(shù)據(jù)孤島,使數(shù)據(jù)集成更容易,并加快數(shù)據(jù)驅(qū)動創(chuàng)新的步伐。
合并來自不同來源的數(shù)據(jù)就像將一堆礫石從一個地方移動到另一個地方一樣,這是一項(xiàng)困難、耗時且常常令人不滿意的工作。首先,ETL 經(jīng)常要求數(shù)據(jù)工程師編寫自定義代碼。然后,DevOps 工程師或 IT 管理員必須部署和管理基礎(chǔ)設(shè)施,以確保數(shù)據(jù)管道的擴(kuò)展。當(dāng)數(shù)據(jù)源發(fā)生變化時,數(shù)據(jù)工程師必須手動更改代碼并重新部署。
此外,當(dāng)數(shù)據(jù)工程師遇到數(shù)據(jù)復(fù)制滯后、架構(gòu)更新中斷以及源和目標(biāo)之間的數(shù)據(jù)不一致等問題時,他們必須花費(fèi)時間和資源來調(diào)試和修復(fù)數(shù)據(jù)管道。在準(zhǔn)備數(shù)據(jù)時(這個過程可能需要幾天時間),數(shù)據(jù)分析師無法運(yùn)行交互式分析或構(gòu)建儀表板,數(shù)據(jù)科學(xué)家無法構(gòu)建機(jī)器學(xué)習(xí)模型或運(yùn)行預(yù)測,較終用戶(例如供應(yīng)鏈經(jīng)理)也無法做出數(shù)據(jù)驅(qū)動的決策。
這個漫長的過程扼殺了任何實(shí)時用例的機(jī)會,例如根據(jù)交通狀況將司機(jī)分配到路線、放置在線廣告或向乘客提供列車狀態(tài)更新。在這些情況下,可能會失去改善客戶體驗(yàn)或解決新業(yè)務(wù)前景的機(jī)會。
零 ETL 支持通過聯(lián)合查詢就地查詢數(shù)據(jù),并以零工作量自動將數(shù)據(jù)從源移動到目標(biāo)。這意味著您可以近乎實(shí)時地對事務(wù)數(shù)據(jù)進(jìn)行分析、連接到軟件應(yīng)用程序中的數(shù)據(jù)以及從數(shù)據(jù)存儲中生成 ML 預(yù)測以更快地獲得業(yè)務(wù)洞察,而不必將數(shù)據(jù)移動到 ML 工具。您還可以跨數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖查詢多個數(shù)據(jù)源,而移動數(shù)據(jù)。為了完成這些任務(wù),我們在服務(wù)之間構(gòu)建了各種零 ETL 集成,以解決許多不同的用例。
例如,假設(shè)一家在十幾個國家/地區(qū)設(shè)有工廠的制造公司使用數(shù)據(jù)庫集群來存儲每個國家/地區(qū)的訂單和庫存數(shù)據(jù)。為了實(shí)時查看所有訂單和庫存,該公司必須在每個集群與中央數(shù)據(jù)倉庫之間構(gòu)建單獨(dú)的數(shù)據(jù)管道,以便跨組合數(shù)據(jù)集進(jìn)行查詢。為此,數(shù)據(jù)集成團(tuán)隊必須編寫代碼來連接到 12 個不同的集群并管理和測試 12 個生產(chǎn)管道。團(tuán)隊部署代碼后,必須不斷監(jiān)控和擴(kuò)展管道以優(yōu)化性能,當(dāng)發(fā)生任何變化時,他們必須在 12 個不同的地方進(jìn)行更新。通過使用Amazon Aurora 零 ETL 與 Amazon Redshift 集成,數(shù)據(jù)集成團(tuán)隊可以消除構(gòu)建和管理自定義數(shù)據(jù)管道的工作。
另一個例子是銷售和運(yùn)營經(jīng)理正在尋找公司銷售團(tuán)隊?wèi)?yīng)重點(diǎn)關(guān)注的領(lǐng)域。使用完全托管的無代碼集成服務(wù) Amazon AppFlow,數(shù)據(jù)分析師可以將銷售機(jī)會記錄從 Salesforce 提取到 Amazon Redshift 中,并將其與來自不同來源(例如計費(fèi)系統(tǒng)、ERP 和營銷數(shù)據(jù)庫)的數(shù)據(jù)相結(jié)合。通過分析所有這些系統(tǒng)中的數(shù)據(jù)進(jìn)行銷售分析,銷售經(jīng)理能夠無縫更新銷售儀表板,并為團(tuán)隊提供正確的銷售機(jī)會。
在一個現(xiàn)實(shí)世界的用例中, Magellan Rx Management (現(xiàn)在是 Prime Therapeutics 的一部分)。使用數(shù)據(jù)和分析來提供改善患者護(hù)理、優(yōu)化成本和改善結(jié)果的臨床解決方案。該公司通過其 MRx Predict 解決方案開發(fā)和提供這些分析,該解決方案使用各種數(shù)據(jù)(包括藥房和醫(yī)療索賠以及人口普查數(shù)據(jù))來優(yōu)化預(yù)測模型的開發(fā)和部署,并較大限度地提高預(yù)測準(zhǔn)確性。
在 Magellan Rx Management 開始使用 Redshift ML 之前,其數(shù)據(jù)科學(xué)家通過使用各種工具執(zhí)行一系列步驟得出了預(yù)測。他們必須在 SageMaker 中確定適當(dāng)?shù)?ML 算法或使用 Amazon SageMaker Autopilot,從數(shù)據(jù)倉庫導(dǎo)出數(shù)據(jù),并準(zhǔn)備訓(xùn)練數(shù)據(jù)以使用這些模型。部署模型后,科學(xué)家們使用新數(shù)據(jù)進(jìn)行了各種迭代以進(jìn)行預(yù)測(也稱為推理)。這涉及通過一系列手動步驟在 Amazon Redshift 和 SageMaker 之間來回移動數(shù)據(jù)。
借助 Redshift ML,該公司的分析師可以通過輕松創(chuàng)建和使用 ML 模型來對新藥進(jìn)行市場分類。通過利用 Redshift ML 支持此流程所獲得的效率提高了生產(chǎn)力、優(yōu)化了資源并產(chǎn)生了高度的預(yù)測準(zhǔn)確性。
我們的使命是讓客戶輕松地從他們的數(shù)據(jù)中獲得較大價值,而集成服務(wù)是此過程的關(guān)鍵。這就是我們今天致力于構(gòu)建零 ETL 未來的原因。通過數(shù)據(jù)工程師可以自由地專注于從數(shù)據(jù)中創(chuàng)造價值,組織可以加速數(shù)據(jù)的使用,以簡化運(yùn)營并推動業(yè)務(wù)增長。