亚洲成AV人片天堂网,色婷婷精品亚洲AⅤ,久久亚洲日韩精品一区

從廣告監(jiān)測(cè)到知識(shí)圖譜，明略千億大數(shù)據(jù)處理能力是如何煉成的？

2021-05-18 11:19 InfoQ

關(guān)鍵詞：大數(shù)據(jù)云計(jì)算物聯(lián)網(wǎng)

導(dǎo)讀：網(wǎng)購、叫車、訂外賣、看電影...... 移動(dòng)互聯(lián)網(wǎng)各種場(chǎng)景的背后都離不開大數(shù)據(jù)技術(shù)。

網(wǎng)購、叫車、訂外賣、看電影...... 移動(dòng)互聯(lián)網(wǎng)各種場(chǎng)景的背后都離不開大數(shù)據(jù)技術(shù)。經(jīng)過十幾年的發(fā)展，大數(shù)據(jù)技術(shù)已經(jīng)成為互聯(lián)網(wǎng)企業(yè)的基礎(chǔ)設(shè)施。

源起谷歌“三駕馬車”

聊起大數(shù)據(jù)，就繞不開谷歌的“三駕馬車“。早在 2003 年，谷歌發(fā)表第一篇論文——谷歌文件系統(tǒng)（GFS）；第二年，谷歌再次發(fā)表一篇論文——分布式計(jì)算框架 MapReduce；2006 年，谷歌發(fā)表第三篇論文——NoSQL 數(shù)據(jù)庫系統(tǒng) BigTable。這三篇論文由此開啟了大數(shù)據(jù)時(shí)代。

徐飛在《大數(shù)據(jù)浪潮之巔：新技術(shù)商業(yè)制勝之道》一書中寫道，“通過‘三駕馬車’這一利器，谷歌具備了存儲(chǔ)和分析海量數(shù)據(jù)的能力，其個(gè)性化廣告系統(tǒng)猶如永動(dòng)的印鈔機(jī)，不斷為谷歌賺取財(cái)富。”

受谷歌“三駕馬車”的影響，其他互聯(lián)網(wǎng)公司也在嘗試大規(guī)模分布式系統(tǒng)，希望構(gòu)建強(qiáng)大的數(shù)據(jù)存儲(chǔ)、分析和處理平臺(tái)。不過，當(dāng)時(shí)正處于前 Hadoop 時(shí)期，互聯(lián)網(wǎng)公司基本上都在摸著石頭過河。

數(shù)據(jù)收集和計(jì)算領(lǐng)域的先驅(qū)

在眾多的互聯(lián)網(wǎng)公司中，成立于 2006 年的秒針系統(tǒng)無疑是這個(gè)領(lǐng)域的先行者。據(jù)秒針系統(tǒng)產(chǎn)研中心負(fù)責(zé)人劉沛介紹，2008 年 Hadoop 還沒有成熟，他們從零研發(fā)了自己的大數(shù)據(jù)平臺(tái)，“思路跟 Hadoop MapReduce 類似，一天也能處理幾十億數(shù)據(jù)”。劉沛在 2007 年加入秒針，那時(shí)他還在讀大三。一年后，他正式畢業(yè)，留在秒針系統(tǒng)。他先后領(lǐng)導(dǎo)了包括廣告監(jiān)測(cè)系統(tǒng) AdMonitor 等核心產(chǎn)品的研究和開發(fā)。作為秒針系統(tǒng)的老人，他見證了秒針系統(tǒng)大數(shù)據(jù)平臺(tái)從 0 到 1 的過程。

據(jù)悉，秒針系統(tǒng)的業(yè)務(wù)是廣告監(jiān)測(cè)，核心產(chǎn)品是 AdMonitor。在 AdMonitor 的服務(wù)鏈路中，前端負(fù)責(zé)收集數(shù)據(jù)。每個(gè)廣告會(huì)被嵌入一個(gè)發(fā)送到秒針系統(tǒng)域名的代碼。一旦廣告在媒體端被點(diǎn)擊，它就會(huì)把被嵌入的代碼發(fā)回到秒針系統(tǒng)的服務(wù)器。這樣，系統(tǒng)就知道完成了一次廣告曝光。這樣的一個(gè)廣告業(yè)務(wù)流程主要涉及數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算和數(shù)據(jù)分析技術(shù)。

多端收集數(shù)據(jù)

那么，第一個(gè)問題來了，秒針系統(tǒng)怎么收集數(shù)據(jù)？據(jù)劉沛介紹，在 PC 時(shí)代，大多使用 JavaScript 來采集數(shù)據(jù)。這就要求秒針系統(tǒng)的產(chǎn)品要適配每一個(gè)瀏覽器，包括 Firefox、IE、傲游瀏覽器、海豚瀏覽器等。據(jù)悉，cookie 是當(dāng)時(shí)數(shù)據(jù)收集使用的主要技術(shù)之一。除 cookie 之外，結(jié)合 Flash。那時(shí)，幾乎所有的廣告都是 Flash，因?yàn)?Flash 本身是一個(gè)可執(zhí)行程序，所以能在其內(nèi)部編程，把監(jiān)測(cè)代碼放在里面，收集數(shù)據(jù)。

劉沛表示，“Flash 也有 cookie 的概念，技術(shù)術(shù)語叫 FSO。把 FSO 和 cookie 做各種聯(lián)動(dòng)，實(shí)現(xiàn)持久化。這邊刪了，那邊能恢復(fù)；那邊刪了，這邊再恢復(fù)。在保護(hù)用戶隱私的前提下更精準(zhǔn)地識(shí)別出一個(gè)獨(dú)立用戶?！?/p>

到了 2012 年，智能手機(jī)出現(xiàn)，Android 和 iOS App 數(shù)量不斷增多，秒針系統(tǒng)又在 AdMonitor 產(chǎn)品中增加移動(dòng)端廣告測(cè)量能力。SDK 技術(shù)成為當(dāng)時(shí)移動(dòng)端數(shù)據(jù)收集的主要方式。劉沛稱，“Android、iOS 都是新事物，不僅要學(xué)習(xí)新的編程語言，還要面對(duì)新技術(shù)環(huán)境進(jìn)行開發(fā)。做出一款應(yīng)用后，要適配廠商不同機(jī)型的不同型號(hào)。除硬件外，還要適應(yīng)手機(jī)上運(yùn)行的各種 App”。

舉個(gè)例子，愛奇藝、優(yōu)酷和騰訊視頻是三大主流視頻 App。SDK 要在之上運(yùn)行，前期要做各種對(duì)接測(cè)試，保證運(yùn)轉(zhuǎn)正常?！安荒茏?App 死機(jī)，也不能拖慢了它的系統(tǒng)運(yùn)轉(zhuǎn)。另外，數(shù)據(jù)采集結(jié)果要和他們上報(bào)的一致。因此，每加入一款主流 App，都得做技術(shù)對(duì)接和數(shù)據(jù)測(cè)試?！彼f。

2012 年 8 月，秒針系統(tǒng)正式推出中國第一個(gè)移動(dòng)端廣告加載 SDK，“很快就被加進(jìn)了主流的 App 中”。

用 RAID 5 搞定數(shù)據(jù)存儲(chǔ)難題

時(shí)任秒針系統(tǒng)大數(shù)據(jù)平臺(tái)運(yùn)維負(fù)責(zé)人任鑫琦向 InfoQ 記者透露，秒針系統(tǒng)的業(yè)務(wù)量當(dāng)時(shí)非常大，占到全國所有廣告監(jiān)測(cè)流量的 60%，收集數(shù)據(jù)的服務(wù)器每天 PV 量超過 100 億。

這么多數(shù)據(jù)，如何存儲(chǔ)？據(jù)劉沛介紹，當(dāng)時(shí)使用了 RAID（獨(dú)立磁盤冗余陣列）技術(shù)，具體說是 RAID 5 技術(shù)：數(shù)據(jù)在寫入磁盤時(shí)，將數(shù)據(jù)分成 N-1 份，并發(fā)寫入 N-1 塊磁盤，校驗(yàn)數(shù)據(jù)螺旋式寫入所有磁盤。這樣保證了 RAID 5 既有較快的訪問速度，又有較高的數(shù)據(jù)可靠性。

用劉沛的話解釋，“一個(gè)集群中，一份數(shù)據(jù)被切片后存在不同地方。如果一塊磁盤銷毀了，還能從別處恢復(fù)”。

百億規(guī)模的數(shù)據(jù)計(jì)算問題，怎么解？

數(shù)據(jù)收集上來后，關(guān)鍵是數(shù)據(jù)計(jì)算。任鑫琦介紹，計(jì)算分為兩類：第一類是按小時(shí)進(jìn)行批量計(jì)算，這要求平臺(tái)具備大規(guī)模數(shù)據(jù)的處理能力。第二類是實(shí)時(shí)計(jì)算，這要保證實(shí)時(shí)計(jì)算的可靠性，否則計(jì)算延遲，“客戶看到的數(shù)據(jù)就不準(zhǔn)確”。

據(jù)悉，秒針系統(tǒng)當(dāng)時(shí)一天有 100 多億數(shù)據(jù)。其單臺(tái)日志服務(wù)器的承載性能是“滿負(fù)荷運(yùn)行，一天可以處理 4 個(gè)億的數(shù)據(jù)”。實(shí)際中，一般按照 50% 的負(fù)載使用率，即一臺(tái)日志服務(wù)器一天要處理 2 億數(shù)據(jù)。這樣算下來，大概需要 50 臺(tái)日志服務(wù)器。

當(dāng)數(shù)據(jù)量超過一臺(tái)服務(wù)器的承載能力時(shí)，前端要分成很多臺(tái)服務(wù)器做負(fù)載均衡。比如，監(jiān)測(cè)代碼加在各種各樣的媒體上，每個(gè)廣告主在多個(gè)媒體上投放，而每個(gè)媒體同時(shí)又承載多個(gè)廣告主，每個(gè)媒體又有不同的廣告位，“所以要把這些全部用監(jiān)測(cè)代碼 ID 索引好”。

劉沛稱，“每個(gè)廣告被曝光或點(diǎn)擊時(shí)，這條請(qǐng)求是發(fā)到了哪臺(tái)服務(wù)器，都要有一套統(tǒng)一的調(diào)度規(guī)則，保證每臺(tái)服務(wù)器的承壓一致，保證每臺(tái)服務(wù)器分工合理。這樣整體性能就會(huì)最好”。

在數(shù)據(jù)計(jì)算架構(gòu)上，由于 Hadoop 當(dāng)時(shí)不成熟，所以秒針系統(tǒng)使用了一個(gè)開源的分布式文件系統(tǒng) KFS。任鑫琦說：“基于 KFS，我們沒有用 Hadoop 零點(diǎn)幾版本的架構(gòu)，因?yàn)椴惶€(wěn)定，其管理節(jié)點(diǎn)不是高可用的?！盚adoop 在 2.0 版本之前，其 NameNode 只有一個(gè)，一旦壞了，整個(gè)集群就會(huì)崩潰。所以，自己維護(hù)了一套分布式計(jì)算任務(wù)的調(diào)度工具，把順序調(diào)度和背序調(diào)度相結(jié)合，再加入一些針對(duì)局部的調(diào)度技巧和優(yōu)化。

Hadoop 助力，技術(shù)能力再上一層樓

2012 年，Hadoop 發(fā)布 2.0 版本。它是一套全新架構(gòu)，包含 HDFS Federation 和 Yarn 兩個(gè)系統(tǒng)。相比 1.0 版本，它更穩(wěn)定，也更成熟。因此，秒針系統(tǒng)開始逐漸采用。但系統(tǒng)遷移并不是那么容易，花了一年的時(shí)間才成功切換到 Hadoop 上。

劉沛說，一方面，版本不穩(wěn)定；另一方面，所有人都是新手。出現(xiàn)問題找不到原因時(shí)，劉沛他們就到 Hadoop 開源社區(qū)去問，有沒有人遇到同樣問題。如果其他人也遇到這個(gè)問題，大家就一起討論怎么辦。而有的問題，”沒有其他人遇到，就只能自己看源代碼，想辦法解決，解決不了的，再找別的解決方案，用別的東西來實(shí)現(xiàn)或自己寫代碼實(shí)現(xiàn)“。后來，隨著故障的不斷減少，技術(shù)人員的經(jīng)驗(yàn)越來越豐富，遷移到 Hadoop 上的大數(shù)據(jù)平臺(tái)也愈加成熟和穩(wěn)定，能力變得更強(qiáng)。

2014 年，秒針系統(tǒng)達(dá)到一個(gè)新高度——實(shí)現(xiàn)日均最高千億級(jí)廣告請(qǐng)求處理能力。

站在秒針系統(tǒng)肩上的明略

2012 年，大數(shù)據(jù)的概念開始火起來。此時(shí)，Hadoop 生態(tài)圈的重要角色都已入局，包括 Facebook、LinkedIn 和 Twitter 以及 Hadoop 三大發(fā)行商 Cloudera、MapR、Hortonworks。整個(gè)生態(tài)的蓬勃發(fā)展和日益完善讓 Hadoop 的市場(chǎng)前景變得更美好。于是，從秒針系統(tǒng)孵化出一個(gè)小團(tuán)隊(duì)，目標(biāo)是做定制化大數(shù)據(jù)平臺(tái)。這樣，明略誕生了。

任鑫琦被抽調(diào)到明略，開發(fā)大數(shù)據(jù)平臺(tái)。相比以前，開發(fā)一個(gè)大數(shù)據(jù)平臺(tái)相對(duì)更容易，因?yàn)槊脶樝到y(tǒng)的實(shí)踐積累了一些經(jīng)驗(yàn)，并且 Hadoop 生態(tài)發(fā)展越來越完善，有更多的工具可以利用。

技術(shù)選型

據(jù)任鑫琦介紹，技術(shù)選型的一個(gè)標(biāo)志是 Hadoop 在 2.0 時(shí)提出了 NameNode HA 框架，加入選舉機(jī)制和控制組件，可以實(shí)現(xiàn)大于 3 的奇數(shù)個(gè)管理節(jié)點(diǎn)的配置。當(dāng)一個(gè)管理節(jié)點(diǎn)宕掉，馬上會(huì)選出第二個(gè)管理節(jié)點(diǎn)，這是一個(gè)真正的高可用狀態(tài)。

此前，他們雖然一直關(guān)注 Hadoop，但是卻沒采用，原因之一是 Hadoop 1.0、1.1 版本，只有一個(gè)核心管理節(jié)點(diǎn) NameNode。后來，它引入 Second NameNode，即有一個(gè)主活管理節(jié)點(diǎn)，有一個(gè)備用節(jié)點(diǎn)，這兩個(gè)節(jié)點(diǎn)實(shí)時(shí)同步。如果主節(jié)點(diǎn)服務(wù)宕掉了，備用節(jié)點(diǎn)會(huì)提醒并繼續(xù)管理這個(gè)集群。但是，它其實(shí)并非高可用，“因?yàn)榉?wù)要切換，并且 Second NameNode 也會(huì)有問題”。

他說：“在 Hadoop 2.0 時(shí)，我們認(rèn)為它達(dá)到一個(gè)基本工業(yè)級(jí)可用的狀態(tài)。只要整個(gè)集群不出太嚴(yán)重的問題，一些細(xì)節(jié)問題，比如計(jì)算效率問題、任務(wù)調(diào)度問題等，我們可以通過修改開源代碼，或調(diào)整執(zhí)行任務(wù)，優(yōu)化任務(wù)策略，慢慢改進(jìn)。”

因此，明略就把所有的技術(shù)體系切到 Hadoop 上面。

2014 年 7 月，明略發(fā)布大數(shù)據(jù)平臺(tái) 1.0 版本。據(jù)悉，1.0 版本已經(jīng)相當(dāng)成熟，“在集群上架的服務(wù)器系統(tǒng)裝完情況下，網(wǎng)都通了，不能說完全一鍵部署，但是點(diǎn)幾鍵就能搞定部署。半小時(shí)左右就可以完成一個(gè)大數(shù)據(jù)整個(gè)生態(tài)體系的部署和安裝“。

這一年，明略數(shù)據(jù)成功中標(biāo)中國銀聯(lián)項(xiàng)目，這是它在國內(nèi)第一個(gè)大的企業(yè)級(jí)客戶。任鑫琦稱，“當(dāng)時(shí)，任何成熟的（大數(shù)據(jù)）部署體系都無法做到半小時(shí)完成整個(gè)集群的部署安裝和配置工作。這是我們成熟的一個(gè)標(biāo)志”。

發(fā)力知識(shí)圖譜

基于已有的大數(shù)據(jù)技術(shù)，明略在 2015 年繼而研發(fā)出知識(shí)圖譜，核心產(chǎn)品是 SCOPA。

自己的大數(shù)據(jù)發(fā)展蒸蒸日上，為什么要去做知識(shí)圖譜？現(xiàn)任明略科技集團(tuán)副總裁任鑫琦解釋，第一，知識(shí)圖譜技術(shù)源于搜索引擎，它把所有網(wǎng)頁和內(nèi)容做知識(shí)化管理，這樣能更好地理解用戶搜索意圖，提供用戶想要的內(nèi)容和結(jié)果。第二，差異化競(jìng)爭(zhēng)。他說：“如果能把大量的結(jié)構(gòu)化數(shù)據(jù)，從原來簡(jiǎn)單數(shù)倉的計(jì)算一些報(bào)表，做一些查詢，轉(zhuǎn)換思路，從中抽出它本身的含義，組織成業(yè)務(wù)知識(shí)，更有效地組織數(shù)據(jù)，并且實(shí)現(xiàn)數(shù)據(jù)增值。這就可以跟業(yè)界很多做通用大數(shù)據(jù)處理的公司實(shí)現(xiàn)差異化。“

不過，他也坦承，基于大量數(shù)據(jù)做知識(shí)圖譜有著不小的難度。

難度一，數(shù)據(jù)量非常大，這涉及到整個(gè)的實(shí)時(shí)數(shù)據(jù)處理能力，包括數(shù)據(jù)融合問題、數(shù)據(jù)沖突問題。同時(shí)，業(yè)界也沒有參考的。

難度二，每個(gè)行業(yè)要建立領(lǐng)域知識(shí)圖譜?！斑@與過去的專家系統(tǒng)很像。知識(shí)圖譜的價(jià)值有多大，關(guān)鍵在于行業(yè)領(lǐng)域知識(shí)圖譜的定義，每個(gè)行業(yè)都要跟業(yè)務(wù)專家探討知識(shí)圖譜的設(shè)計(jì)，同時(shí)不停地迭代，做各種改進(jìn)，這很難“。

難度三，知識(shí)圖譜要與一些 AI 技術(shù)相結(jié)合。知識(shí)圖譜的主力場(chǎng)景是“從大數(shù)據(jù)里撈知識(shí)”，最基礎(chǔ)的是實(shí)體與關(guān)系。據(jù)任鑫琦介紹，針對(duì)實(shí)體要做兩件事：一是數(shù)據(jù)融合，二是給實(shí)體打上明確標(biāo)簽。但是實(shí)體種類非常多，怎么打標(biāo)簽，要使用很多 AI 技術(shù)。而關(guān)系的質(zhì)量和數(shù)量決定了整個(gè)知識(shí)圖譜組織形式的質(zhì)量，”關(guān)系沒有處理好，整個(gè)知識(shí)圖譜的可用性就會(huì)降低，它的推薦、推理、交叉分析就用不起來。關(guān)系的處理也要用到很多的 AI 技術(shù)“。

更重要的是，與之前相比，知識(shí)圖譜對(duì)背后支撐的技術(shù)平臺(tái)要求更高。為此，任鑫琦他們?cè)?2015 年決定做一個(gè)混合型知識(shí)圖譜數(shù)據(jù)庫。那么，這個(gè)混合型知識(shí)圖譜要解決三個(gè)核心問題：

一是知識(shí)圖譜要能實(shí)現(xiàn)全文式的定位式索引查詢，比如根據(jù)一個(gè)關(guān)鍵詞定位到知識(shí)圖譜的某個(gè)點(diǎn)，這需要有一個(gè)全文的檢索系統(tǒng)；

二是知識(shí)圖譜會(huì)有很多的條件查詢，比如常規(guī)的大數(shù)據(jù)計(jì)算，按照哪一個(gè) Key 和 ID，做查詢、統(tǒng)計(jì)分析；

三是知識(shí)圖譜要有圖，要完成關(guān)系的推演，包括關(guān)系存儲(chǔ)。

這就要求既有全文，又有大數(shù)據(jù)，還有圖。同時(shí)，還要把這三個(gè)存儲(chǔ)融合在一起，做好統(tǒng)一索引和管理。

據(jù)任鑫琦透露，他們的解決辦法是把 Elasticsearch、HBase 和圖數(shù)據(jù)庫 Titan 做了一致性索引的融合，包括統(tǒng)一的數(shù)據(jù)存儲(chǔ)的路由、性能優(yōu)化。

他說：“這個(gè)問題解決后，像怎么做業(yè)務(wù)定義、怎么描述圖譜的語義等問題都可以用這個(gè)混合型數(shù)據(jù)庫實(shí)現(xiàn)。大規(guī)模數(shù)據(jù)的融合、實(shí)時(shí)數(shù)據(jù)計(jì)算或高性能計(jì)算，這個(gè)混合型知識(shí)圖譜數(shù)據(jù)庫都可以用不同的特性支持每天更新，甚至是實(shí)時(shí)更新。”

明略知識(shí)圖譜的技術(shù)架構(gòu)

據(jù)悉，明略知識(shí)圖譜的架構(gòu)如下圖所示：

100 (14).jpg

這個(gè)架構(gòu)體系中，前端有數(shù)據(jù)接入、數(shù)據(jù)匯總。之后，數(shù)據(jù)清洗，進(jìn)行知識(shí)圖譜構(gòu)建。在知識(shí)圖譜里，還有實(shí)體構(gòu)建、實(shí)體標(biāo)簽的構(gòu)建、關(guān)系構(gòu)建等。同時(shí)，還有圖譜事件類或者行為類數(shù)據(jù)的構(gòu)建。這是一整套數(shù)據(jù)處理的基礎(chǔ)流程。往后，把這些數(shù)據(jù)加載到圖數(shù)據(jù)庫。在這之上是基于知識(shí)圖譜的可視化交互分析系統(tǒng)。

知識(shí)圖譜的技術(shù)架構(gòu)仍以 Hadoop 為核心，數(shù)據(jù)接入上，最早用 Flume（現(xiàn)已切換到 Kafka）。據(jù)任鑫琦介紹，”如果對(duì)接的是數(shù)據(jù)庫系統(tǒng)，用的是 Scoop 1.0 和 2.0。數(shù)據(jù)抽取上來后，如果不屬于日志型、庫表型，用腳本方式抽取到平臺(tái)上，落地到 HDFS；如果是結(jié)構(gòu)化數(shù)據(jù)，直接落成 Hive 表?；?Hive 層完成整個(gè)數(shù)據(jù)清洗、融合、轉(zhuǎn)換和知識(shí)圖譜構(gòu)建工作，基本上用 Spark 實(shí)現(xiàn)整個(gè)的數(shù)據(jù)治理過程。如果是實(shí)時(shí)計(jì)算，用的是準(zhǔn)實(shí)時(shí) Spark Streaming 的技術(shù)選型，因?yàn)檫@可以減少更多相關(guān)組件的引入”。

簡(jiǎn)言之，核心圖譜庫的架構(gòu)和支撐基本是一個(gè)以 Elasticsearch、HBase 和 Titan 三個(gè)庫為核心的綜合混合型數(shù)據(jù)庫。

據(jù)悉，2015 年底，明略知識(shí)圖譜就在國內(nèi)一個(gè)省會(huì)市級(jí)公安局落地，為公安做數(shù)據(jù)分析，包括線索挖掘、團(tuán)伙預(yù)警，協(xié)助公安破案。

2016 年到 2017 年，任鑫琦帶領(lǐng)團(tuán)隊(duì)探索知識(shí)圖譜在更多行業(yè)的落地和應(yīng)用，目前，明略知識(shí)圖譜在公安、金融、工業(yè)和數(shù)字城市等領(lǐng)域得到廣泛應(yīng)用。

回看大數(shù)據(jù) 15 年發(fā)展

2019 年，大數(shù)據(jù)進(jìn)入后 Hadoop 時(shí)代，各種實(shí)時(shí)架構(gòu)和組件大規(guī)模發(fā)展，大數(shù)據(jù)技術(shù)也與云原生、人工智能深度融合。

回顧大數(shù)據(jù)過去幾年的發(fā)展，任鑫琦把它概括成三個(gè)階段：

階段一，大數(shù)據(jù)初期，以賣硬件和炒作概念為主。2010 年左右，很多大型企業(yè)受市場(chǎng)和宣傳影響建設(shè)了大數(shù)據(jù)平臺(tái)，但沒有發(fā)揮出作用，因?yàn)槊撾x業(yè)務(wù)。

階段二，大數(shù)據(jù)進(jìn)一步發(fā)展，以分析型為主。2014 年，企業(yè)對(duì)大數(shù)據(jù)的認(rèn)識(shí)進(jìn)一步深入，通過收集更多數(shù)據(jù)，幫助業(yè)務(wù)決策。

階段三，大數(shù)據(jù)發(fā)展成熟和穩(wěn)定，以實(shí)時(shí)性分析為主。架構(gòu)上，Lambda 架構(gòu)和 Kappa 架構(gòu)廣受歡迎， Flink、Kafka 的使用越來越廣，業(yè)務(wù)對(duì)實(shí)時(shí)性要求越來越高?！皩?shí)時(shí)分析意味著實(shí)時(shí)性的決策和實(shí)時(shí)的價(jià)值，這對(duì)業(yè)務(wù)系統(tǒng)直接產(chǎn)生影響”。以銀行為例，一個(gè)人申請(qǐng)貸款，是否放貸，銀行要做大數(shù)據(jù)風(fēng)控，進(jìn)行實(shí)時(shí)分析。因此，這個(gè)階段要求大數(shù)據(jù)的實(shí)時(shí)性更高，更輕量級(jí)的組件和更先進(jìn)的技術(shù)。

任鑫琦說：“現(xiàn)在，大數(shù)據(jù)已經(jīng)發(fā)展到一個(gè)精細(xì)化階段?！?/p>

以前，人們對(duì)數(shù)據(jù)的認(rèn)識(shí)是單點(diǎn)的、孤立的，理解很淺，比如先匯總數(shù)據(jù)，再慢慢挖掘和分析，但這可能匯總大量無效、無關(guān)的數(shù)據(jù)，這些數(shù)據(jù)對(duì)整個(gè)數(shù)據(jù)體系的業(yè)務(wù)價(jià)值會(huì)有負(fù)面影響。這些年，人們對(duì)數(shù)據(jù)有了新認(rèn)識(shí)，比如數(shù)據(jù)并非越多越好，要規(guī)劃好數(shù)據(jù)怎么存、怎么用、怎么產(chǎn)生更大價(jià)值。這就要求大數(shù)據(jù)越來越精細(xì)化和精準(zhǔn)化！

寫在最后：

從 2003 年谷歌的“三駕馬車”到現(xiàn)在，大數(shù)據(jù)技術(shù)歷經(jīng)十余年發(fā)展，明略也見證了它從風(fēng)口到落地再到大規(guī)模的普及應(yīng)用。2007 年，明略就投身大數(shù)據(jù)行業(yè)，從零到一研發(fā)出一套成熟的大數(shù)據(jù)平臺(tái)，解決了大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)計(jì)算問題。此后，基于秒針系統(tǒng)積累的大數(shù)據(jù)能力，明略成功研發(fā)出知識(shí)圖譜平臺(tái)，并在行業(yè)里得到廣泛應(yīng)用。今天，大數(shù)據(jù)技術(shù)正與云原生、AI 技術(shù)相融合，數(shù)據(jù)驅(qū)動(dòng)成為共識(shí)，作為行業(yè)先行者，明略一直深耕技術(shù)，從未止步，讓數(shù)據(jù)產(chǎn)生更大價(jià)值、發(fā)揮更大作用。

從廣告監(jiān)測(cè)到知識(shí)圖譜，明略千億大數(shù)據(jù)處理能力是如何煉成的？

相關(guān)閱讀

從廣告監(jiān)測(cè)到知識(shí)圖譜，明略千億大數(shù)據(jù)處理能力是如何煉成的？