導(dǎo)讀:盡管AI、物聯(lián)網(wǎng)以及GDPR(一般數(shù)據(jù)保護條例)持續(xù)占據(jù)頭條,但也不要忘記在大數(shù)據(jù)的實現(xiàn)性應(yīng)用方面,云遷移與流分析所產(chǎn)生的劃時代影響。
盡管AI、物聯(lián)網(wǎng)以及GDPR(一般數(shù)據(jù)保護條例)持續(xù)占據(jù)頭條,但也不要忘記在大數(shù)據(jù)的實現(xiàn)性應(yīng)用方面,云遷移與流分析所產(chǎn)生的劃時代影響。
誠然,AI所產(chǎn)生的影響已然無法忽視,其影響所覆蓋的范圍從地緣政治到市井瑣事,甚至還參與了一些舉世聞名的事件。此外,物聯(lián)網(wǎng)在當今社會中日益增長的影響也是不容忽視的,具體包括家庭、醫(yī)院提供醫(yī)療服務(wù)的方式、自動駕駛汽車的驅(qū)動、工廠的運營以及智能化城市管理等方面。爾后,GDPR將在2018年生效,這將迫使各組織著力解決將涉及隱私與國家主權(quán)影響的數(shù)據(jù)從現(xiàn)有數(shù)據(jù)庫轉(zhuǎn)移到數(shù)據(jù)湖與云存儲的過程中所要面臨的問題。
透過表面看本質(zhì),我們發(fā)現(xiàn)構(gòu)造性轉(zhuǎn)變已經(jīng)開始,具體包括企業(yè)在云領(lǐng)域的管理方式、流數(shù)據(jù)分析與數(shù)據(jù)湖戰(zhàn)略等。
目前,已有27.5%的大數(shù)據(jù)工作負載運行在云端(來源:Ovum ICT Enterprise Insights)
關(guān)于未來展望,我們將著眼于數(shù)據(jù)的管理方式?;仡欉^去的一年,我們曾表示“大數(shù)據(jù)——無論其來自于物聯(lián)網(wǎng)還是更為傳統(tǒng)的資源——將會逐步實現(xiàn)在云中完成存儲與處理?!比ツ辏覀冾A(yù)計會有35—40%的新生大數(shù)據(jù)工作負載將在云端完成部署,而到2018年底,新的部署將超過50%。
我們的預(yù)測并非不切實際;Ovum針對所有大數(shù)據(jù)工作負載的最新全球調(diào)查研究顯示,在此之中的27.5%已經(jīng)完成了云端部署。另外,根據(jù)Ovum的報告,企業(yè)云應(yīng)用很難將大數(shù)據(jù)拒之門外,而在各式各樣的工作負載中,企業(yè)云應(yīng)用所占據(jù)的比例在26—30%之間。
由于慣性使然,大多數(shù)組織已經(jīng)不再堅持立足云環(huán)境復(fù)制與其自有數(shù)據(jù)中心相關(guān)的種種功能特性。此外,大多數(shù)組織會選擇使用多個家云供應(yīng)商,這看似是為了取各家之所長。然而,正如以往的類似教訓(xùn)一樣,這其實只是自上而下的企業(yè)標準政策與部門針對相關(guān)政策權(quán)衡之后所做出的妥協(xié)性決策產(chǎn)物。
因此,如同您所在的組織可能面臨SAP的使用成本一樣,不同部門可能同樣面臨著與人力資源相關(guān)的日常開銷或CRM銷售壓力,抑或擁有多種尚未與企業(yè)遺留方案相融合的ERP系統(tǒng)。在云端,企業(yè)電子郵件系統(tǒng)可能通過Office 365實現(xiàn),而部門IT團隊則將使用AWS進行開發(fā)與測試; 與此同時,企業(yè)營銷團隊使用的則是Google Analytics。
隨著云從運行獨立工作負載的目標發(fā)展至企業(yè)關(guān)鍵型應(yīng)用,我們預(yù)計在2018年初期,大多數(shù)公司將開始正式實施多云策略——正如在2017年,我們將云端部署視為大數(shù)據(jù)的隱患一般——多云也因此將成為2018年亟待解決的問題。也正因為如此,甲骨文方面決定將運行在亞馬遜RDS服務(wù)上的數(shù)據(jù)庫產(chǎn)品的使用價格進行翻倍; 這也是為何Aurora OLTP數(shù)據(jù)庫目前能夠成為亞馬遜公司中增長速度最快的服務(wù)(在此之前的冠軍為Redshift)。
這不僅僅是云供應(yīng)商對于此類擔(dān)憂的反應(yīng)性決策,多云的決策將影響有關(guān)平臺的選擇。當您選擇在EC 2上運行一套甲骨文的數(shù)據(jù)庫或Hadoop集群時——若Azure或Google Cloud調(diào)整其定價——這同時也成為了一項值得重新審視的抉擇。
當您選擇在IBM云端運行Aurora、Cosmos DB、谷歌BigQuery、甲骨文Autonomous數(shù)據(jù)庫18c或IBM分析系統(tǒng)時,這不僅意味著需要選擇云,還需要選擇數(shù)據(jù)平臺。現(xiàn)在,您對于這一選擇是否能夠讓運行一套特定云的數(shù)據(jù)平臺增值的關(guān)注度已經(jīng)遠勝于是否選擇依賴一家特定的云供應(yīng)商——這就如同讓您再一次面對甲骨文公司或SQL Server平臺做出決策。
誠然,這也是亞馬遜公司與微軟方面正在以幾乎免費的方式提供數(shù)據(jù)庫遷移服務(wù)的原因——毫無疑問的是這兩家公司想要占領(lǐng)您的企業(yè)數(shù)據(jù)庫。同樣,我們預(yù)計Google Cloud、甲骨文與IBM將會在2018年積極以虧損方式搶占數(shù)據(jù)庫遷移服務(wù)份額,并且越來越多的企業(yè)會在這一領(lǐng)域拼盡全力。
多云戰(zhàn)略也將在混合云的管理方面發(fā)揮至關(guān)重要的作用。正如鮮有組織——無論其規(guī)模如何——傾向于依賴單一云供應(yīng)商一般,也很少有組織(除了初創(chuàng)企業(yè)之外)會將全部的工作負載轉(zhuǎn)移至云端。在云計算平臺運行分析時,無論是在設(shè)計抑或是數(shù)據(jù)主權(quán)的問題上,維護敏感客戶記錄的透明度將會成為影響云計算平臺選擇的主要因素。
數(shù)據(jù)管道改變了實時處理的重心
去年,我們預(yù)測“物聯(lián)網(wǎng)將成為把實時流數(shù)據(jù)推向前端的應(yīng)用實例?!苯衲?,谷歌方面的Anadiotis預(yù)測,不僅流數(shù)據(jù)將成為主流,“并且還將逐步實現(xiàn)即時分析?!?/p>
流數(shù)據(jù)分析并非是新鮮術(shù)語;在此之前,我們已經(jīng)投入了大量精力以讓其重拾關(guān)注。在進行數(shù)據(jù)存儲之前,流數(shù)據(jù)處理可被用于數(shù)據(jù)的解析與過濾以及模式或事件的檢測。物聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長自然催生了難題——所有數(shù)據(jù)是否都需要存儲以及在哪里完成數(shù)據(jù)的處理。
隨著我們?nèi)找嬖鲩L的技術(shù)需求,我們希望能夠在數(shù)據(jù)運行的同時完成更多的工作負載。這不僅解釋了用于隊列處理的Kafka與分發(fā)數(shù)據(jù)技術(shù)的萌生,還表明了數(shù)據(jù)平臺供應(yīng)商——諸如SAP、 Hortonworks、MapR與 Teradata——正在采取相關(guān)行動的原因。 Amazon Kinesis、 Azure Data Factory以及 Google Cloud Dataflow的崛起亦是這類即時需求的直接產(chǎn)物。數(shù)據(jù)管道能夠?qū)崟r處理從基礎(chǔ)過濾與轉(zhuǎn)換擴展為協(xié)調(diào)進程,從而支持高級預(yù)測分析與機器學(xué)習(xí)。因此,我們預(yù)計數(shù)據(jù)管道將在2018年成為流式分析的關(guān)鍵性支柱。此外,我們還將在這個領(lǐng)域聽到來自于IBM與甲骨文等供應(yīng)商所帶來的更多消息。
云存儲已在客觀層面扮演數(shù)據(jù)湖角色
因為數(shù)據(jù)湖是專為保存那些不適合于其它位置且易丟失的數(shù)據(jù)而設(shè)計,所以當您想到數(shù)據(jù)湖時,您可能自然就會想到Hadoop。我們已經(jīng)將數(shù)據(jù)湖定義為受管理的存儲庫,并致力于讓其成為數(shù)據(jù)的默認提取點。但是,我們現(xiàn)在發(fā)現(xiàn)數(shù)據(jù)湖的安裝啟用超過了Hadoop?;蛘哒鏜ike Olson在2014年所預(yù)言的一般——Hadoop終將消失。
數(shù)據(jù)湖以聯(lián)動查詢工具作為起點,現(xiàn)已成為每個分析數(shù)據(jù)庫的配套項目。我們已經(jīng)見證了JSON數(shù)據(jù)庫通過Spark進行擴展,從而實現(xiàn)分析查詢。此外,我們還目睹了各Hadoop供應(yīng)商(例如Cloudera 與 Hortonworks)將其數(shù)據(jù)管理服務(wù)與HDFS分離。所以,現(xiàn)在數(shù)據(jù)湖即是數(shù)據(jù)存儲的位置所在。
毫無疑問,云供應(yīng)商享有最后的發(fā)言權(quán):在云端,云存儲顯然已成為數(shù)據(jù)的默認攝取點。所以,云供應(yīng)商正在致力于讓其云對象存儲配備直接查詢功能。亞馬遜方面現(xiàn)在已可通過S3直接訪問配有Athena 的SQL 實際查詢,并可作為Redshift Spectrum數(shù)據(jù)倉庫的擴展。Google Cloud早已將其云存儲作為BigQuery的默認來源,而Snowflake——第三方云數(shù)據(jù)倉庫——也是如此。
此外,頗為諷刺的是,云存儲最初其實專為存儲需求而設(shè)計。然而,在云對象存儲占據(jù)了大部分數(shù)據(jù)的世界里,催生了企業(yè)要優(yōu)化訪問需求。所以在2018年,我們預(yù)計幾乎所有的數(shù)據(jù)倉庫與分析數(shù)據(jù)庫都將對接當下流行的云對象存儲方案,具體包括S3、Azure BLOB Storage與Google Cloud Storage等支持目標。