應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

一個 Babelfish ,看懂云數(shù)據(jù)庫的發(fā)展方向

2021-12-01 11:09 媒體合作

導讀:如果云數(shù)據(jù)庫,或者叫云原生數(shù)據(jù)庫,是確鑿無疑的下一個風口。那么其當下主要的技術和發(fā)展方向是什么?我們該如何看待云原生數(shù)據(jù)庫的發(fā)展趨勢?亞馬遜云科技在 2020 年發(fā)布的 Babelfish 或許能夠帶給我們一些啟發(fā)。

作為基礎軟件皇冠上的明珠,數(shù)據(jù)庫技術一直以來都是開發(fā)者關注的焦點。這關注度是如此之高,幾乎自然打通了學界和產(chǎn)業(yè)界的隔閡,以至于關于數(shù)據(jù)庫技術的每一篇重要論文面世,都可能導致一批價值數(shù)十億美金的公司出現(xiàn)。

而在最近幾年,縱觀整個數(shù)據(jù)庫產(chǎn)業(yè),云數(shù)據(jù)庫逐漸成為焦點中的焦點。據(jù) Gartner, Inc 稱,到 2022 年,所有數(shù)據(jù)庫中有 75% 將部署或遷移到云平臺,只有 5% 曾考慮返回到本地。而 IDC 認為,到 2025 年,全球超過 50% 的數(shù)據(jù)庫將部署在公有云上;在中國市場,這個數(shù)據(jù)更為夸張,達到了 70% 以上。

d730a8a983964b23837a6f827353d051.png

那么問題來了,如果云數(shù)據(jù)庫,或者叫云原生數(shù)據(jù)庫,是確鑿無疑的下一個風口。那么其當下主要的技術和發(fā)展方向是什么?我們該如何看待云原生數(shù)據(jù)庫的發(fā)展趨勢?亞馬遜云科技在 2020 年發(fā)布的 Babelfish 或許能夠帶給我們一些啟發(fā)。

1.Babelfish,一個被人低估的重磅發(fā)布 

Babelfish 在 2020 年的 re:Invent 上發(fā)布,由亞馬遜云科技 CEO Andy Jassy 宣布。

簡單來說,Babelfish 是云數(shù)據(jù)庫 Amazon Aurora PostgreSQL 的一個插件,它讓 Aurora 能夠兼容 Microsoft SQL Server 編寫的應用程序。

Babelfish 剛剛發(fā)布,Youtube 上就有許多工程師制作視頻表達了不理解。因為自打云數(shù)據(jù)庫出現(xiàn),相關遷移服務就在產(chǎn)業(yè)內(nèi)隨處可見,幾乎每一家公有云企業(yè),都能提供相關遷移服務,只不過大部分是針對 Oracle 的。有一家叫做 Enterprise DB 的美國,專門提供從 Oracle 到 PostgreSQL 的遷移服務。相關代理層、SQL 語言轉(zhuǎn)換工具更是層出不窮。

事實上,亞馬遜云科技自己就有相關的遷移服務,比如 Amazon Schema Convertion Tool 做架構(gòu)遷移,Amazon Database Migration Service 做存儲遷移。

那么,Babelfish 存在的意義是什么呢?多加一層代理增加后端處理成本嗎?

實際上,只遷移架構(gòu)和存儲是不完整的,構(gòu)建在數(shù)據(jù)庫之上的應用還沒有完成遷移。以 Babelfish 服務的場景來說,基于 Microsoft SQL Server 構(gòu)建的應用使用 T-SQL 與數(shù)據(jù)庫交互,這與 PostgreSQL 完全是兩碼事。如果你想將應用也同步遷移,除非把這部分重寫一遍。

這也讓數(shù)據(jù)庫遷移成為了業(yè)內(nèi)非常少見的動作,不是大家不想(畢竟誰也沒法保證最初的架構(gòu)選型永遠正確),但成本實在是太高。

這種遷移成本,我們可以通過一套比較通用的遷移方案來感受下:

9e20c7c725f8407cb5bf837ec14e2fab.png

比起這種沉重的遷移,如果數(shù)據(jù)庫天生兼容,是不是方便太多了?這也是 Babelfish 存在最主要的意義。

而許多人,會低估 Babelfish ,可能也是因為只看見了其商業(yè)層面的意義,而沒有注意到其技術層面的難度。

Oracle 和 PostgreSQL,許多特性相同,轉(zhuǎn)換尚且困難;切換到 T-SQL 和 PostgreSQL 就更加復雜了。數(shù)據(jù)庫的同步轉(zhuǎn)換要注意許多異常復雜的細節(jié)問題,包括查詢語言的轉(zhuǎn)換,存儲過程的轉(zhuǎn)換,靜態(tài)游標的轉(zhuǎn)換,觸發(fā)器的轉(zhuǎn)換,等等。

3dd6cc0a57704862be7bd55146c8f880.png

亞馬遜云科技 的 Sébastien Stormacq 曾在發(fā)布的博客中指出,在 T-SQL 中,MONEY 類型具有四位小數(shù)精度, PostgreSQL 則只有兩位小數(shù)精度,這種細微的差異可能會導致四舍五入錯誤,并對下游流程(例如財務報告)產(chǎn)生重大影響。

他說:“在這種情況下,Babelfish 會確保保留了 SQL Server 數(shù)據(jù)類型的語義和 T-SQL 功能:我們創(chuàng)建了一個 MONEY 數(shù)據(jù)類型,使其行為與 SQL Server 應用程序預期的一樣?!?/p>

Babelfish 的方案是用 hooks(鉤子)方法在 PostgreSQL 內(nèi)置引擎中實現(xiàn),將自己暴露為不同的數(shù)據(jù)庫(否則就只能修改 PostgreSQL 許多核心區(qū)域的代碼),其架構(gòu)圖如下:

c13fdedec4a8424abebea1f4c80a34b2.png

精妙之處在于,通過數(shù)據(jù)庫內(nèi)核部分執(zhí)行器層面的擴展開發(fā),Babelfish 實現(xiàn)了 T-SQL 與 pgSQL 之間的互相調(diào)用。也就是說,新寫 PostgreSQL 代碼可以調(diào)用之前應用寫的 SQL Server 代碼。對于寫過存儲過程的朋友們來說,這個功能已經(jīng)和 Babelfish 的名字一樣,帶上“科幻”色彩了。即便已經(jīng)使用了最硬核的實現(xiàn)方式, Babelfish 也沒有完全實現(xiàn)兼容,ADD SIGNATURE 等一些功能、語法還沒有實現(xiàn)。亞馬遜官方工程師說:“SQL Server 已經(jīng)發(fā)展了 30 多年,我們不希望立即支持所有功能。相反,我們專注于最常見的 T-SQL 命令并返回正確的響應或錯誤消息?!?/p>

這也恰恰說明了類似遷移加速器的開發(fā)難度,也證實了為什么開源路線才是最適合 Babelfish 發(fā)展的,因為開源可以讓足夠多的開發(fā)者參與到產(chǎn)品迭代中來。

同理,一個如此高難度的開發(fā)項目,也不太可能是無足輕重的。相反,它可能是亞馬遜云科技 2020 年最重要的發(fā)布之一。

2.數(shù)據(jù)庫碎片化時代,真的來了?

亞馬遜在云計算領域的發(fā)布,曾多次引導了整個產(chǎn)業(yè)的發(fā)展方向。比如,2012 年發(fā)布的 Amazon Redshift 引導了云原生數(shù)倉的發(fā)展方向,2014 年發(fā)布的 Amazon Lambda 引導了 Serverless 的發(fā)展方向(Gartner 到 2019 年才確認 Serverless 為未來趨勢),Amazon Aurora 本身也是云原生數(shù)據(jù)庫的先驅(qū)產(chǎn)品。

如果說,Babelfish 也代表了一種方向,那么或許是,數(shù)據(jù)庫碎片化的時代,真的來了。

數(shù)據(jù)庫這個產(chǎn)品本身因為開發(fā)難度太高,長期以來都被少數(shù)幾家公司把控著,其中的佼佼者 Oracle 更是以極快的速度提升著商業(yè)數(shù)據(jù)庫的開發(fā)門檻。

但數(shù)據(jù)庫“單極”化發(fā)展后導致的價格高、綁定風險高等問題,也讓眾多企業(yè)逐漸難以忍受。當下,各種類型的數(shù)據(jù)庫層出不窮,關系型、鍵值、時序、圖形……讓人難以抉擇。另外一個重要的現(xiàn)象是,大部分云原生數(shù)據(jù)庫都是基于 PostgreSQL 研發(fā)而來,但后續(xù)的許多研發(fā)力量卻沒有投入到高性能、高可拓展性等傳統(tǒng)技術概念本身。

數(shù)據(jù)庫兼容,這一開發(fā)難度高,與性能無關的特性,卻成為了亞馬遜云科技的研發(fā)重點。某種意義上也說明,遍地開花的各類型數(shù)據(jù)庫還將長期存在于產(chǎn)業(yè)內(nèi)。人們習慣認為,產(chǎn)業(yè)的長期發(fā)展趨勢是從單一走向多元,最終經(jīng)過市場篩選,回歸單一。但這次,“單極”時代可能真的一去不復返了。

此外,在 2020 Gartner 的魔力象限報告里,云數(shù)據(jù)庫領域有數(shù)家占領導位置的企業(yè),亞馬遜、微軟、Google 位居前三位。

634ea931584e44669bda68c15230b4f8.png

而就在 2019 年,前三名還是微軟、Oracle、亞馬遜。老大老三打著打著,老二沒了……

e72d2ed3b0c2438ca86571be07fef8c5.png

如今,有 Babelfish 加持的 Amazon Aurora ,兼容了 Microsoft SQL Server ,恐怕受傷的還是 Oracle。云數(shù)據(jù)庫之間的墻壁在倒塌,而傳統(tǒng)商業(yè)型數(shù)據(jù)庫的競爭難度在進一步加大。

而乘上碎片化時代東風,發(fā)布了 Babelfish 的 Amazon ,也順理成章的成為了云數(shù)據(jù)庫市場新的領頭羊。

3.寫在最后

數(shù)據(jù)庫行業(yè)遠未走到終局,也不會有所謂的終局。但云原生數(shù)據(jù)庫可以獲得的優(yōu)勢并不僅限于數(shù)據(jù)庫本身,比如 Amazon Aurora Serverless 提供的彈性伸縮服務,Amazon Aurora Global Database 提升了數(shù)據(jù)全球同步能力與業(yè)務連續(xù)性,Amazon DevOps Guru 將機器學習引入了應用管理。這是“合力”,將數(shù)據(jù)庫在云上的體驗拉伸到了全新的維度。

在云數(shù)據(jù)庫領域,這種“合力”將主導接下來的市場格局。

11 月 30 日,2021 re:Invent 又將到來,Adam Selipsky 將首次以亞馬遜云科技新任 CEO 的身份亮相。相信云數(shù)據(jù)庫市場的趨勢動向,也將隨之更加清晰。