報(bào)告編委
黃勇
愛分析合伙人&首席分析師
洪逸群
愛分析高級(jí)分析師
張良筠
愛分析分析師
外部專家(按姓氏拼音排序)
李遠(yuǎn)志
柏睿數(shù)據(jù) 副總裁
謝寅
鏡舟科技 資深解決方案架構(gòu)師
許哲
中信建投證券 數(shù)據(jù)組VP
姚延棟
YMatrix 創(chuàng)始人&CEO
張晨
創(chuàng)鄰科技 CEO
特別鳴謝(按拼音排序)
報(bào)告摘要
隨著近幾年整個(gè)產(chǎn)業(yè)數(shù)字化進(jìn)程的深入,數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景變得更多、更復(fù)雜,導(dǎo)致數(shù)據(jù)庫(kù)需要應(yīng)對(duì)相比以往急劇增長(zhǎng)的數(shù)據(jù)規(guī)模,處理更加多樣的數(shù)據(jù)類型,以及具備更加復(fù)雜的場(chǎng)景化能力。
因此,近年來,高性能、非關(guān)系型數(shù)據(jù)支持、簡(jiǎn)化使用和運(yùn)維,場(chǎng)景化解決方案等能力成為企業(yè)應(yīng)用數(shù)據(jù)庫(kù)的關(guān)鍵考量因素,多種新一代的數(shù)據(jù)庫(kù)也逐漸在企業(yè)中落地。
分析型數(shù)據(jù)庫(kù)釋放業(yè)務(wù)數(shù)據(jù)潛在價(jià)值
分析型數(shù)據(jù)庫(kù)作為數(shù)據(jù)基礎(chǔ)設(shè)施的核心,需要提供高效的數(shù)據(jù)查詢和計(jì)算服務(wù)支撐業(yè)務(wù)運(yùn)轉(zhuǎn)。然而企業(yè)現(xiàn)有的大數(shù)據(jù)引擎逐漸暴露出了即席查詢不夠敏捷、大數(shù)據(jù)量高并發(fā)響應(yīng)慢、固定報(bào)表運(yùn)算效率低下的性能缺陷。此外,多數(shù)據(jù)源存儲(chǔ)系統(tǒng)的分散獨(dú)立使得數(shù)據(jù)聯(lián)通查詢分析遇到困難。
針對(duì)現(xiàn)有數(shù)據(jù)分析引擎的性能缺陷和多數(shù)據(jù)源無法聯(lián)通的問題,分析型數(shù)據(jù)庫(kù)著重提升了即席查詢、大規(guī)模數(shù)據(jù)高并發(fā)查詢、固定報(bào)表運(yùn)算效率,并且提供聯(lián)邦的功能支持跨多數(shù)據(jù)源進(jìn)行查詢和分析,打破了企業(yè)數(shù)據(jù)孤島,釋放業(yè)務(wù)數(shù)據(jù)價(jià)值。
圖數(shù)據(jù)庫(kù)助力挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系
在進(jìn)行業(yè)務(wù)數(shù)據(jù)分析時(shí),識(shí)別數(shù)據(jù)間的關(guān)聯(lián)并對(duì)其特點(diǎn)進(jìn)行研究是一項(xiàng)重要的工作,例如在社交網(wǎng)絡(luò)、金融風(fēng)控、營(yíng)銷等場(chǎng)景都需要從海量數(shù)據(jù)中發(fā)掘出單體之間的隱藏關(guān)系。但由于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)對(duì)關(guān)聯(lián)關(guān)系的查詢能力有限,以及相關(guān)分析工具和解決方案的缺失,關(guān)聯(lián)關(guān)系的挖掘成為企業(yè)面臨的難題。
圖分析解決方案為了應(yīng)對(duì)企業(yè)在數(shù)據(jù)關(guān)系探索上的難題,利用圖數(shù)據(jù)庫(kù)的存儲(chǔ)和關(guān)系計(jì)算能力,支持用戶使用圖算法對(duì)海量數(shù)據(jù)進(jìn)行挖掘并對(duì)其關(guān)系特點(diǎn)進(jìn)行分析。此外,知識(shí)圖譜平臺(tái)具備圖譜構(gòu)建和知識(shí)推理計(jì)算能力,將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識(shí),實(shí)現(xiàn)業(yè)務(wù)洞察。
超融合數(shù)據(jù)庫(kù)支撐企業(yè)多元化業(yè)務(wù)快速發(fā)展
中大型企業(yè)在復(fù)雜多樣的業(yè)務(wù)場(chǎng)景中沉淀了海量數(shù)據(jù),而且由于業(yè)務(wù)持續(xù)擴(kuò)張?jiān)鲩L(zhǎng)的趨勢(shì),企業(yè)需要不斷加強(qiáng)數(shù)字化基座的能力來匹配海量數(shù)據(jù)規(guī)模和業(yè)務(wù)發(fā)展速度。然而企業(yè)現(xiàn)有的的數(shù)據(jù)庫(kù)承載數(shù)據(jù)類型有限并且性能表現(xiàn)不足,難以滿足企業(yè)對(duì)數(shù)據(jù)庫(kù)服務(wù)的需求。
為了解決在業(yè)務(wù)快速發(fā)展過程中遇到的承載數(shù)據(jù)類型限制和性能表現(xiàn)欠佳的問題,超融合數(shù)據(jù)庫(kù)部署了針對(duì)不同數(shù)據(jù)類型的專有引擎,技術(shù)架構(gòu)的簡(jiǎn)易化不會(huì)為企業(yè)增加過多的運(yùn)維管理成本。同時(shí),超融合數(shù)據(jù)庫(kù)具備與常見的專用數(shù)據(jù)庫(kù)或大數(shù)據(jù)引擎同等或更好的性能表現(xiàn)。
目錄
1. 報(bào)告綜述
2. 分析型數(shù)據(jù)庫(kù)
3. 圖數(shù)據(jù)庫(kù)
4. 超融合數(shù)據(jù)庫(kù)
5. 結(jié)語
1. 報(bào)告綜述
作為承載各類數(shù)據(jù)存儲(chǔ)和處理需求的基礎(chǔ)設(shè)施,數(shù)據(jù)庫(kù)在企業(yè)數(shù)字化轉(zhuǎn)型的過程中起到了關(guān)鍵的支撐作用。但隨著近幾年產(chǎn)業(yè)數(shù)字化進(jìn)程的深入,數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景比以往更多、更復(fù)雜,導(dǎo)致數(shù)據(jù)庫(kù)需要應(yīng)對(duì)以下幾點(diǎn)關(guān)鍵變化和挑戰(zhàn)。
首先,企業(yè)內(nèi)的數(shù)據(jù)規(guī)模在急劇增長(zhǎng)。無論是企業(yè)尋求通過數(shù)字化轉(zhuǎn)型實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)決策,還是一些新興行業(yè)企業(yè)業(yè)務(wù)的快速擴(kuò)張,都讓企業(yè)的數(shù)據(jù)量從原先的幾十TB,迅速增長(zhǎng)至幾百TB,甚至是PB級(jí)。然而傳統(tǒng)的數(shù)據(jù)庫(kù)在性能方面,很難應(yīng)對(duì)如此大規(guī)模數(shù)據(jù)量的查詢分析。
其次,企業(yè)需要存儲(chǔ)和處理的數(shù)據(jù)類型變得更多樣。關(guān)系型數(shù)據(jù)占主導(dǎo)地位的時(shí)代已經(jīng)過去,現(xiàn)在,企業(yè)在很多新興應(yīng)用場(chǎng)景中為了提高數(shù)據(jù)存儲(chǔ)和分析效率,采用了新的數(shù)據(jù)模型。例如,營(yíng)銷、風(fēng)控中用于關(guān)聯(lián)關(guān)系分析的圖數(shù)據(jù),制造業(yè)中用于記錄生產(chǎn)過程的時(shí)序數(shù)據(jù),以及文檔、健值、GIS等各種數(shù)據(jù)模型。如何處理多種類型數(shù)據(jù),成為企業(yè)在數(shù)據(jù)庫(kù)層面需要首先解決的問題。
最后,企業(yè)越來越需要數(shù)據(jù)庫(kù)具備場(chǎng)景化的解決方案。通常,企業(yè)已經(jīng)建有一定的數(shù)據(jù)基礎(chǔ)設(shè)施,且不同行業(yè)企業(yè)的數(shù)據(jù)應(yīng)用場(chǎng)景往往有一些特殊要求,為了減少數(shù)據(jù)遷移和加載,并加速數(shù)據(jù)分析,企業(yè)需要數(shù)據(jù)庫(kù)具備相應(yīng)場(chǎng)景化的功能和解決方案。例如,在大數(shù)據(jù)量固定報(bào)表場(chǎng)景,企業(yè)需要數(shù)據(jù)庫(kù)具備預(yù)計(jì)算能力;在企業(yè)有多套業(yè)務(wù)系統(tǒng)需要聯(lián)合分析的場(chǎng)景,企業(yè)需要數(shù)據(jù)庫(kù)具備聯(lián)邦查詢能力;在工業(yè)企業(yè)需要不斷收集數(shù)據(jù)做預(yù)測(cè)性維護(hù)的場(chǎng)景,企業(yè)需要數(shù)據(jù)庫(kù)具備庫(kù)內(nèi)機(jī)器學(xué)習(xí)的能力。
圖 1: 數(shù)據(jù)庫(kù)應(yīng)用面臨的三大挑戰(zhàn)
面對(duì)這些變化和挑戰(zhàn),數(shù)據(jù)庫(kù)業(yè)內(nèi)一直在升級(jí)或推出新的數(shù)據(jù)庫(kù)產(chǎn)品,以滿足企業(yè)的需求。為了提升數(shù)據(jù)庫(kù)性能,企業(yè)可以采用基于分布式、內(nèi)存存儲(chǔ),以及多種技術(shù)優(yōu)化的新一代數(shù)據(jù)庫(kù);為了處理多種類型數(shù)據(jù),企業(yè)可以選擇各種專用數(shù)據(jù)庫(kù),如圖數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、搜索引擎等,而當(dāng)企業(yè)部署了多套數(shù)據(jù)庫(kù)系統(tǒng),運(yùn)維難度大,且又需要做聯(lián)合分析時(shí),在內(nèi)核層融合多類型數(shù)據(jù)處理能力的超融合數(shù)據(jù)庫(kù),則是最佳選擇;為了實(shí)現(xiàn)場(chǎng)景解決方案,具備預(yù)計(jì)算、聯(lián)邦查詢、庫(kù)內(nèi)機(jī)器學(xué)習(xí)等其中一種或多種能力的數(shù)據(jù)庫(kù),逐漸成為企業(yè)重點(diǎn)關(guān)注的因素。
為了幫助企業(yè)更好地理解如何應(yīng)用合適的數(shù)據(jù)庫(kù)解決企業(yè)面臨的這些普遍問題,本報(bào)告選取了分析型數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)和超融合數(shù)據(jù)庫(kù)市場(chǎng)的4個(gè)典型的數(shù)據(jù)庫(kù)應(yīng)用案例,對(duì)每個(gè)案例中的企業(yè)需求、解決方案和落地效果進(jìn)行詳細(xì)分析,并總結(jié)提煉案例背后體現(xiàn)的共性價(jià)值。
2. 分析型數(shù)據(jù)庫(kù)
2.1分析型數(shù)據(jù)庫(kù)多方位優(yōu)化性能,高效提供數(shù)據(jù)服務(wù)
在數(shù)字化轉(zhuǎn)型的驅(qū)動(dòng)下,各行業(yè)均呈現(xiàn)出數(shù)據(jù)量爆發(fā)式增長(zhǎng)、數(shù)據(jù)應(yīng)用場(chǎng)景多樣化拓展的趨勢(shì)。面對(duì)海量數(shù)據(jù),如何從中發(fā)掘出有效信息來支持決策,成為企業(yè)業(yè)務(wù)運(yùn)轉(zhuǎn)和實(shí)現(xiàn)轉(zhuǎn)型增長(zhǎng)的關(guān)鍵。分析型數(shù)據(jù)庫(kù)作為數(shù)據(jù)基礎(chǔ)設(shè)施的核心,不僅要為各系統(tǒng)輸送數(shù)據(jù)查詢和分析的能力,而且要保證自身服務(wù)的高效性來滿足及時(shí)用數(shù)的需求。
然而,在業(yè)務(wù)場(chǎng)景不斷拓展、數(shù)據(jù)規(guī)模持續(xù)增長(zhǎng)的壓力下,企業(yè)傳統(tǒng)使用的查詢分析引擎性能表現(xiàn)嚴(yán)重不足,無法支持實(shí)時(shí)業(yè)務(wù)決策,具體表現(xiàn)在:
即席查詢不夠敏捷。在企業(yè)進(jìn)行決策時(shí),數(shù)據(jù)分析作為了解業(yè)務(wù)運(yùn)轉(zhuǎn)情況的重要手段之一,需要通過多表關(guān)聯(lián)、自由組合查詢條件的方式對(duì)多維度指標(biāo)進(jìn)行上卷和下鉆探查。然而傳統(tǒng)的分析引擎在大數(shù)據(jù)量、復(fù)雜查詢的場(chǎng)景下逐漸無法適用,會(huì)出現(xiàn)響應(yīng)慢,甚至無法獲取查詢結(jié)果的問題,不能夠很好地支持?jǐn)?shù)據(jù)聚合計(jì)算、明細(xì)查詢等需求;
大數(shù)據(jù)量、高并發(fā)請(qǐng)求響應(yīng)慢。隨著數(shù)據(jù)查詢和分析的需求逐漸向業(yè)務(wù)端推進(jìn),業(yè)務(wù)人員也常常需要進(jìn)行日常查詢操作來支撐實(shí)時(shí)決策。然而大型企業(yè)通常業(yè)務(wù)人員眾多,不免帶來同時(shí)間下多點(diǎn)并發(fā)查詢的請(qǐng)求,對(duì)數(shù)據(jù)庫(kù)造成性能壓力,引起響應(yīng)延時(shí)的問題;
固定報(bào)表運(yùn)算效率低下。除了自助分析之外,企業(yè)還需要通過固定報(bào)表了解關(guān)鍵指標(biāo)的動(dòng)態(tài)和趨勢(shì)。固定報(bào)表通常由多個(gè)SQL組成,涉及數(shù)據(jù)量大且計(jì)算維度多,容易造成數(shù)據(jù)庫(kù)計(jì)算效率低下的問題。
針對(duì)現(xiàn)有數(shù)據(jù)庫(kù)在性能上的欠缺,分析型數(shù)據(jù)庫(kù)廠商著重提升了即席查詢、大規(guī)模數(shù)據(jù)高并發(fā)執(zhí)行、固定報(bào)表等方面的性能來滿足企業(yè)用數(shù)需求。具體從以下方面著手解決問題:
圖2: 優(yōu)化分析型數(shù)據(jù)庫(kù)性能加速服務(wù)響應(yīng)
優(yōu)化在大數(shù)據(jù)量、多表關(guān)聯(lián)復(fù)雜計(jì)算的能力。分析型數(shù)據(jù)庫(kù)通過具備高效數(shù)據(jù)存取的全內(nèi)存架構(gòu)、查詢索引優(yōu)化、多表連接優(yōu)化等手段提升數(shù)據(jù)吞吐量和查詢計(jì)算效率,減少業(yè)務(wù)決策的停頓等待時(shí)間;
提升數(shù)據(jù)吞吐量、任務(wù)執(zhí)行并發(fā)度。為了滿足大數(shù)據(jù)量、高并發(fā)的數(shù)據(jù)查詢請(qǐng)求,分析型數(shù)據(jù)庫(kù)通常采用分布式部署,利用大規(guī)模并行執(zhí)行架構(gòu)的優(yōu)勢(shì),配合均衡分配節(jié)點(diǎn)負(fù)載等手段提升數(shù)據(jù)吞吐量,使數(shù) 據(jù)庫(kù)具備多任務(wù)并發(fā)能力;
引入預(yù)計(jì)算加速固定查詢。在固定報(bào)表的場(chǎng)景下,分析型數(shù)據(jù)庫(kù)可以引入預(yù)計(jì)算能力,利用構(gòu)建物化視圖的方式復(fù)用常見查詢,加速?gòu)?fù)雜SQL計(jì)算能力。
2.2高效聯(lián)通多數(shù)據(jù)系統(tǒng),聯(lián)邦查詢跨源提供數(shù)據(jù)查詢
隨著數(shù)據(jù)來源的拓展,以及數(shù)據(jù)存儲(chǔ)系統(tǒng)相對(duì)獨(dú)立,企業(yè)難以將多數(shù)據(jù)源進(jìn)行打通,造成數(shù)據(jù)聯(lián)通查詢分析困難的問題。當(dāng)分析人員需要結(jié)合其他業(yè)務(wù)數(shù)據(jù)或站在全局視角進(jìn)行決策時(shí),會(huì)遇到系統(tǒng)間數(shù)據(jù)流轉(zhuǎn)不暢、數(shù)據(jù)加工繁瑣、用數(shù)口徑不一致等問題,難以保證決策的準(zhǔn)確性。
此外,Hadoop大數(shù)據(jù)解決方案需要大量數(shù)據(jù)搬遷,將多源數(shù)據(jù)整合成內(nèi)表進(jìn)行統(tǒng)一查詢,企業(yè)在已經(jīng)具備成熟的大數(shù)據(jù)存儲(chǔ)引擎的情況下通常進(jìn)行大規(guī)模數(shù)據(jù)遷移的成本會(huì)很高。
圖3:聯(lián)邦功能跨多數(shù)據(jù)源查詢
針對(duì)企業(yè)多數(shù)據(jù)源的情況,一些分析型數(shù)據(jù)庫(kù)提供聯(lián)邦查詢的功能,支持查詢多源數(shù)據(jù)。外表聯(lián)邦查詢功能通過只保存表對(duì)應(yīng)的元數(shù)據(jù),并直接向所在數(shù)據(jù)源發(fā)起查詢,避開了數(shù)據(jù)遷移工作,并且實(shí)現(xiàn)了數(shù)據(jù)層面的整合分析。
同時(shí),外表聯(lián)邦查詢功能支持包括MySQL、Elasticsearch、Hive、Iceberg在內(nèi)的多個(gè)第三方數(shù)據(jù)源,并且可以滿足用戶對(duì)不同維度、不同層面聚合或明細(xì)查詢的多樣需求。
案例1:某國(guó)有商業(yè)銀行構(gòu)建實(shí)時(shí)交互式數(shù)據(jù)分析平臺(tái),高效助力普惠金融業(yè)務(wù)
在銀行數(shù)字化轉(zhuǎn)型的過程中,客戶分析和精細(xì)化管理至關(guān)重要。在普惠金融業(yè)務(wù)中,如何對(duì)下沉的海量客戶建立數(shù)字普惠全景視圖,實(shí)現(xiàn)經(jīng)營(yíng)狀況及資產(chǎn)質(zhì)量分析、客戶分析、產(chǎn)品分析、營(yíng)銷分析等交互式數(shù)據(jù)分析能力,對(duì)于銀行普惠金融業(yè)務(wù)的開展起到了關(guān)鍵支撐作用。
某國(guó)有大型商業(yè)銀行充分利用征信、工商、納稅、電力、司法、結(jié)算、供應(yīng)鏈、政務(wù)、采購(gòu)平臺(tái)、貸款信息等行內(nèi)外數(shù)據(jù),將風(fēng)險(xiǎn)指標(biāo)融入客戶多維畫像信息,建立普惠金融營(yíng)銷、準(zhǔn)入、信用評(píng)價(jià)、授信、定價(jià)、貸后監(jiān)測(cè)預(yù)警、催收等分析模型,實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)指標(biāo)實(shí)時(shí)報(bào)送,提供交互式數(shù)據(jù)分析。該平臺(tái)對(duì)底層數(shù)據(jù)基礎(chǔ)設(shè)施的實(shí)時(shí)性、高并發(fā)、穩(wěn)定性和可用性等能力都提出了更高的要求。具體而言,需要解決以下需求:
1)海量異構(gòu)數(shù)據(jù)的實(shí)時(shí)查詢。面對(duì)多樣復(fù)雜的客戶畫像數(shù)據(jù),數(shù)據(jù)庫(kù)作為支撐業(yè)務(wù)用戶日常在線使用的系統(tǒng),需要能夠執(zhí)行行內(nèi)超過200個(gè)以上標(biāo)簽動(dòng)態(tài)組合以及5張表以上任意條件篩選和組合的復(fù)雜查詢,達(dá)到秒級(jí)響應(yīng)時(shí)間;
2)支撐高并發(fā)業(yè)務(wù)查詢場(chǎng)景。該銀行總共有5萬多位客戶經(jīng)理提供日常對(duì)公和對(duì)私的業(yè)務(wù)服務(wù),會(huì)不免出現(xiàn)同時(shí)間下的多點(diǎn)數(shù)據(jù)查詢需求。因此,數(shù)據(jù)庫(kù)要能夠在高并發(fā)場(chǎng)景下及時(shí)響應(yīng)來滿足精準(zhǔn)營(yíng)銷和信貸風(fēng)控的業(yè)務(wù)需要;
3)能夠穩(wěn)定可靠地對(duì)外提供數(shù)據(jù)服務(wù),滿足系統(tǒng)可用性級(jí)別要求。金融行業(yè)對(duì)數(shù)據(jù)一致性、系統(tǒng)的RPO和RTO指標(biāo)、多數(shù)據(jù)中心等方面有嚴(yán)苛的要求,要保證數(shù)據(jù)不錯(cuò)不漏、故障無損快速切換,提供多數(shù)據(jù)中心備災(zāi)措施等。
基于分布式全內(nèi)存數(shù)據(jù)庫(kù)RapidsDB構(gòu)建數(shù)據(jù)分析平臺(tái)
為了滿足以上性能及業(yè)務(wù)需求,該銀行將借助分布式內(nèi)存計(jì)算技術(shù)提升數(shù)據(jù)庫(kù)分析性能,作為重點(diǎn)考察方向。柏睿數(shù)據(jù)分布式全內(nèi)存數(shù)據(jù)庫(kù)RapidsDB在快速部署、集群彈性、性能線性擴(kuò)展、廣泛兼容、異構(gòu)數(shù)據(jù)支持、海量數(shù)據(jù)計(jì)算等多方面獲得行方的高度肯定,從而在行方同類數(shù)據(jù)庫(kù)產(chǎn)品選型中脫穎而出。
柏睿數(shù)據(jù)成立于 2014 年,是一家以數(shù)據(jù)庫(kù)為核心的“Data+AI〞數(shù)據(jù)智能基礎(chǔ)軟件公司,國(guó)內(nèi)首家因突破數(shù)據(jù)庫(kù)核心技術(shù)而獲得國(guó)家級(jí)專精特新“小巨人”稱號(hào)的民營(yíng)企業(yè)。柏睿數(shù)據(jù)作為國(guó)內(nèi)掌握全內(nèi)存數(shù)據(jù)庫(kù)引擎關(guān)鍵專利的企業(yè),基于完全自主研發(fā)的全內(nèi)存分布式數(shù)據(jù)庫(kù)產(chǎn)品體系和人工智能產(chǎn)品體系,打造軟硬一體化智能數(shù)據(jù)處理平臺(tái),其產(chǎn)品在算力性能、智能化、安全性、標(biāo)準(zhǔn)化等關(guān)鍵技術(shù)指標(biāo)上均業(yè)界領(lǐng)先,已為金融、政務(wù)、能源、通信、醫(yī)療等眾多行業(yè)標(biāo)桿客戶提供原創(chuàng)性數(shù)字化轉(zhuǎn)型技術(shù)產(chǎn)品服務(wù)。
圖4: 基于分布式全內(nèi)存數(shù)據(jù)庫(kù)RapidsDB構(gòu)建的實(shí)時(shí)交互式數(shù)據(jù)分析平臺(tái)
柏睿分布式全內(nèi)存數(shù)據(jù)庫(kù)RapidsDB在該行的普惠金融業(yè)務(wù)場(chǎng)景中代替了原有的“Oracle + ElasticSearch”復(fù)雜技術(shù)棧,實(shí)現(xiàn)極速性能提升,而且保證了金融級(jí)別的穩(wěn)定可靠和高可用性。
為了解決海量用戶數(shù)據(jù)實(shí)時(shí)查詢的性能問題,RapidsDB采用全內(nèi)存架構(gòu)避開了磁盤訪問I/O,達(dá)到更快的查詢速度;在多表關(guān)聯(lián)場(chǎng)景下,柏睿通過動(dòng)態(tài)查詢優(yōu)化、索引使用優(yōu)化、join連接優(yōu)化實(shí)現(xiàn)了多表關(guān)聯(lián)場(chǎng)景中更強(qiáng)的性能表現(xiàn),達(dá)到復(fù)雜查詢的即時(shí)響應(yīng)能力。
為了支撐上萬名業(yè)務(wù)經(jīng)理高并發(fā)的查詢需求。RapidsDB采用分布式架構(gòu),通過動(dòng)態(tài)擴(kuò)展應(yīng)對(duì)任務(wù)執(zhí)行量的增長(zhǎng),并且配合查詢優(yōu)化器均衡分配節(jié)點(diǎn)負(fù)載。同時(shí),RapidsDB通過數(shù)據(jù)結(jié)構(gòu)無鎖化實(shí)現(xiàn)了最大程度的并發(fā)能力。
針對(duì)金融級(jí)數(shù)據(jù)可靠性和可用性的要求,首先,RapidsDB在內(nèi)存存儲(chǔ)之外還通過事務(wù)日志和定期快照不斷地將數(shù)據(jù)備份到磁盤,實(shí)現(xiàn)數(shù)據(jù)庫(kù)內(nèi)存與持久化存儲(chǔ),如Flash、SSD、HD等,協(xié)同工作來確保數(shù)據(jù)無丟失風(fēng)險(xiǎn)。其次,在集群內(nèi)部可用性方面,數(shù)據(jù)節(jié)點(diǎn)通過成對(duì)的配置在彼此之間共享數(shù)據(jù)副本,保持?jǐn)?shù)據(jù)實(shí)時(shí)同步。主備節(jié)點(diǎn)均可對(duì)外提供服務(wù),如果出現(xiàn)任何葉的故障,RapidsDB將自動(dòng)切換副本分區(qū)。在節(jié)點(diǎn)出現(xiàn)故障的情況下,RapidsDB通過將適當(dāng)?shù)母北痉謪^(qū)升級(jí)為主分區(qū)來轉(zhuǎn)移節(jié)點(diǎn)故障,以便數(shù)據(jù)庫(kù)保持在線。在滿足集群內(nèi)高可用的基礎(chǔ)上,RapidsDB還實(shí)現(xiàn)了跨機(jī)房數(shù)據(jù)和系統(tǒng)服務(wù)的高可用,支持“同城雙中心”、“兩地三中心”、“三地五中心”等金融級(jí)別的災(zāi)備方案,在系統(tǒng)本身發(fā)生故障、應(yīng)用層報(bào)錯(cuò)、網(wǎng)絡(luò)錯(cuò)誤、人為錯(cuò)誤等情形下,數(shù)據(jù)庫(kù)系統(tǒng)均能保障良好的高可用性。
基于RapidsDB數(shù)據(jù)庫(kù)的數(shù)據(jù)分析平臺(tái)落地后的價(jià)值與效果
第一, 通過RapidsDB在大規(guī)模異構(gòu)數(shù)據(jù)場(chǎng)景下的高性能表現(xiàn),滿足了該銀行對(duì)多表關(guān)聯(lián)復(fù)雜查詢的需求。實(shí)現(xiàn)了1100億行數(shù)據(jù)、40TB大數(shù)據(jù)量下的實(shí)時(shí)查詢,支持前端SQL條件靈活組合、最多15個(gè)表join的多表復(fù)雜查詢。
第二, RapidsDB支撐了全銀行5萬名客戶經(jīng)理的日常查詢服務(wù),具備典型情況下上百個(gè)并發(fā)查詢和極端情況下4000多個(gè)并發(fā)查詢的能力,能夠充分應(yīng)對(duì)業(yè)務(wù)多點(diǎn)并發(fā)的讀取請(qǐng)求,達(dá)到平均3.6秒的響應(yīng)時(shí)間。
第三, RapidsDB能夠穩(wěn)定可靠地運(yùn)行,提供99.999%高可用的數(shù)據(jù)服務(wù),滿足金融行業(yè)對(duì)數(shù)據(jù)庫(kù)的嚴(yán)苛要求,有效支撐了該銀行普惠金融業(yè)務(wù)的快速發(fā)展。
項(xiàng)目經(jīng)驗(yàn)總結(jié)
該銀行的數(shù)據(jù)分析平臺(tái)成功上線以來,柏睿數(shù)據(jù)RapidsDB分布式全內(nèi)存數(shù)據(jù)庫(kù)展現(xiàn)了出色的性能和穩(wěn)定性來支撐該銀行普惠金融業(yè)務(wù)的轉(zhuǎn)型升級(jí)。該項(xiàng)目的成功落地為同類型業(yè)務(wù)或者相似規(guī)模的企業(yè)提供了以下分析型數(shù)據(jù)庫(kù)的使用建議:
1)在類似普惠金融擁有海量多元化數(shù)據(jù)沉淀,并且要求高實(shí)時(shí)性查詢的業(yè)務(wù)場(chǎng)景中,全內(nèi)存數(shù)據(jù)庫(kù)因?yàn)檫\(yùn)行時(shí)不需要將數(shù)據(jù)同步到物理磁盤,從而避免了磁盤I/O限制對(duì)系統(tǒng)性能的影響并且減少了系統(tǒng)維護(hù)的工作量,所以被該類型業(yè)務(wù)場(chǎng)景所青睞。因此,對(duì)于數(shù)據(jù)存取效率要求較高的系統(tǒng),全內(nèi)存數(shù)據(jù)庫(kù)可以比主要利用磁盤存取的數(shù)據(jù)庫(kù)發(fā)揮更大的性能作用。
2)在類似國(guó)有銀行員工數(shù)量眾多、內(nèi)部組織架構(gòu)復(fù)雜的大型企業(yè)中,通常有大量業(yè)務(wù)人員同時(shí)進(jìn)行日常查詢操作來保證業(yè)務(wù)正常運(yùn)轉(zhuǎn)。因此,分析型數(shù)據(jù)庫(kù)需要具備分布式相關(guān)技術(shù),通過動(dòng)態(tài)擴(kuò)展和平衡分配任務(wù)量支持多點(diǎn)并發(fā)的任務(wù)請(qǐng)求,保證同一時(shí)間下查詢的及時(shí)響應(yīng)。
案例2:中信建投基于分析型數(shù)據(jù)庫(kù)構(gòu)建統(tǒng)一查詢服務(wù)平臺(tái),滿足企業(yè)大規(guī)模用數(shù)需求
中信建投證券(簡(jiǎn)稱“中信建投”)是經(jīng)中國(guó)證監(jiān)會(huì)批準(zhǔn)設(shè)立的全國(guó)性大型綜合證券公司,其在企業(yè)融資、收購(gòu)兼并、證券經(jīng)紀(jì)、資產(chǎn)管理、股票及衍生品交易等領(lǐng)域形成了自身特色和核心業(yè)務(wù)優(yōu)勢(shì),并搭建了研究咨詢、信息技術(shù)、運(yùn)營(yíng)管理、風(fēng)險(xiǎn)管理、合規(guī)管理等專業(yè)高效的業(yè)務(wù)支持體系。目前,中信建投擁有超過1,000萬證券經(jīng)紀(jì)業(yè)務(wù)客戶,托管證券市值超過5.5萬億元,位居行業(yè)第2名。
近年來,在證券服務(wù)逐漸互聯(lián)網(wǎng)化,以及券商牌照紅利逐漸消退的行業(yè)背景下,中信建投不斷加大對(duì)數(shù)字化的投入,尤其重視數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè),期望在客戶服務(wù)、經(jīng)營(yíng)管理等多方面由經(jīng)驗(yàn)依賴向數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變,從而提高服務(wù)水平和決策效率。因此,在公司總部和各分支機(jī)構(gòu),包括經(jīng)紀(jì)、資管、投行等業(yè)務(wù)部門,以及稽核、審計(jì)、財(cái)務(wù)、法務(wù)等職能部門,對(duì)自助分析、多維分析、固定報(bào)表和API數(shù)據(jù)服務(wù)等形式的用數(shù)需求一直在不斷增長(zhǎng)。
為了推動(dòng)整體數(shù)字化建設(shè)和數(shù)據(jù)治理工作,中信建投已經(jīng)在2019年搭建了基于Hadoop體系的數(shù)據(jù)湖,將大量歷史數(shù)據(jù)遷移到Hadoop上,用Hive對(duì)數(shù)據(jù)進(jìn)行加工處理,所有的查詢計(jì)算都通過Presto執(zhí)行。但是,該方案在最近兩年數(shù)據(jù)量快速增長(zhǎng)、業(yè)務(wù)場(chǎng)景多樣化發(fā)展的趨勢(shì)下逐漸無法適用。具體而言,中信建投目前在數(shù)據(jù)查詢分析中主要存在以下痛點(diǎn)和需求:
1) 數(shù)據(jù)加工鏈路復(fù)雜。在數(shù)據(jù)分析的流程上,數(shù)據(jù)部門通常是首先用presto做即席查詢,再通過Hive進(jìn)行數(shù)據(jù)加工,最后將加工過后的數(shù)據(jù)下發(fā)到各部門的Oracle或MySQL事務(wù)型數(shù)據(jù)庫(kù),業(yè)務(wù)人員在事務(wù)數(shù)據(jù)庫(kù)里對(duì)下發(fā)數(shù)據(jù)進(jìn)行查詢和分析。整個(gè)過程需要在三套系統(tǒng)之間進(jìn)行數(shù)據(jù)交換,且三套系統(tǒng)使用的SQL語法也不一致,需要不同人員進(jìn)行開發(fā)維護(hù),從而產(chǎn)生了多種問題:
數(shù)據(jù)開發(fā)和維護(hù)成本高;
數(shù)據(jù)口徑可能不一致,導(dǎo)致數(shù)據(jù)應(yīng)用結(jié)果不準(zhǔn)確;
用數(shù)需求難以得到及時(shí)滿足,通常要“T+1”才能給到數(shù)據(jù)報(bào)表。
2) 大數(shù)據(jù)量下性能不足,查詢響應(yīng)慢。中信建投目前大部分的數(shù)據(jù)都存儲(chǔ)在Hive中,業(yè)務(wù)部門在進(jìn)行自助分析時(shí)通常涉及的相關(guān)數(shù)據(jù)量較大,而Presto在大數(shù)據(jù)量、多表關(guān)聯(lián)查詢時(shí)會(huì)出現(xiàn)響應(yīng)比較慢,甚至無法獲得查詢結(jié)果的問題,無法滿足單表及多表復(fù)雜查詢場(chǎng)景下響應(yīng)的及時(shí)性。此外,Presto因?yàn)橘Y源隔離不足會(huì)出現(xiàn)應(yīng)用搶占資源的情況,不能很好支持高并發(fā)的查詢請(qǐng)求。
3) 大量實(shí)時(shí)數(shù)據(jù)分散在各個(gè)業(yè)務(wù)系統(tǒng),無法進(jìn)行聯(lián)合分析。由于中信建投內(nèi)部存在非常多的業(yè)務(wù)系統(tǒng),各業(yè)務(wù)系統(tǒng)相互獨(dú)立且數(shù)據(jù)會(huì)不斷更新,而這些實(shí)時(shí)數(shù)據(jù)無法更新到Hive中,導(dǎo)致業(yè)務(wù)數(shù)據(jù)之間不能及時(shí)打通進(jìn)行聯(lián)合分析。
4) 缺少預(yù)計(jì)算能力加速固定查詢。固定報(bào)表和API數(shù)據(jù)服務(wù)為各業(yè)務(wù)提供包括數(shù)據(jù)匯總結(jié)果、明細(xì)查詢、數(shù)據(jù)接口在內(nèi)的多項(xiàng)能力,而基于固定數(shù)據(jù)查詢的可視化報(bào)表通常數(shù)據(jù)查詢量大、計(jì)算維度較多,一個(gè)看板頁(yè)面涉及大約一兩百個(gè)SQL語句,整體運(yùn)算效率低下。針對(duì)這種情況,中信建投希望通過預(yù)計(jì)算實(shí)現(xiàn)查詢加速,并且要求開發(fā)工作輕量化且資源消耗較低。
引入StarRocks構(gòu)建統(tǒng)一查詢服務(wù)平臺(tái)
通過綜合對(duì)比數(shù)據(jù)庫(kù)即席查詢、實(shí)時(shí)分析性能、預(yù)計(jì)算能力、數(shù)據(jù)聯(lián)邦技術(shù),并且結(jié)合中信建投已經(jīng)在Hadoop體系中有大量投入,不希望做大規(guī)模數(shù)據(jù)搬遷的具體情況,將Hive外表查詢支持、SQL語法及函數(shù)的兼容性等方面納入選型考慮,中信建投最終選擇引入StarRocks來構(gòu)建統(tǒng)一的查詢服務(wù)平臺(tái),滿足各部門的用數(shù)需求。
StarRocks是數(shù)據(jù)分析新范式的開創(chuàng)者、新標(biāo)準(zhǔn)的領(lǐng)導(dǎo)者。面世三年來,StarRocks 一直專注打造世界頂級(jí)的新一代極速全場(chǎng)景 MPP 數(shù)據(jù)庫(kù),幫助企業(yè)構(gòu)建極速統(tǒng)一的湖倉(cāng)新范式,是實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和降本增效的關(guān)鍵基礎(chǔ)設(shè)施。當(dāng)前全球超過 200 家市值 70 億元以上的頭部企業(yè)都在基于 StarRocks 構(gòu)建新一代數(shù)據(jù)分析能力,包括騰訊、攜程、平安銀行、中原銀行、中信建投、招商證券、眾安保險(xiǎn)、大潤(rùn)發(fā)、百草味、順豐、京東物流、TCL、OPPO 等,并與全球云計(jì)算領(lǐng)導(dǎo)者亞馬遜云、阿里云、騰訊云等達(dá)成戰(zhàn)略合作。項(xiàng)目在 GitHub 星數(shù)已超 3700 個(gè),成為年度開源熱力值增速第一的項(xiàng)目,市場(chǎng)滲透率躋身中國(guó)前十名。
圖5:中信建投統(tǒng)一數(shù)據(jù)查詢服務(wù)平臺(tái)
作為一款高性能全場(chǎng)景的分析型數(shù)據(jù)庫(kù),StarRocks使用MPP 架構(gòu)、可實(shí)時(shí)更新的列式存儲(chǔ)引擎等技術(shù)實(shí)現(xiàn)多維、實(shí)時(shí)、高并發(fā)的數(shù)據(jù)分析。StarRocks 既支持從各類實(shí)時(shí)和離線的外部數(shù)據(jù)源高效導(dǎo)入數(shù)據(jù),也支持直接分析數(shù)據(jù)湖上各種格式的數(shù)據(jù),統(tǒng)一的SQL交互將數(shù)據(jù)分析結(jié)果或物化視圖預(yù)計(jì)算結(jié)果分發(fā)到各個(gè)數(shù)據(jù)應(yīng)用,為中信建投實(shí)現(xiàn)了三套系統(tǒng)使用功能的整合以及數(shù)據(jù)應(yīng)用流程的簡(jiǎn)化。
具體而言,針對(duì)中信建投的痛點(diǎn)問題,StarRocks具備如下優(yōu)勢(shì):
1)在性能方面,針對(duì)大規(guī)模數(shù)據(jù)下自助BI敏捷高效的需求。StarRocks向量化執(zhí)行引擎,全面實(shí)現(xiàn)了SIMD指令,保證查詢和向量化導(dǎo)入可以充分利用單機(jī)單核CPU的處理能力;StarRocks自研的Pipeline協(xié)程引擎,使得StarRocks可以應(yīng)對(duì)更高的并發(fā)查詢,充分利用單機(jī)多核CPU的處理能力,與此同時(shí)可以更優(yōu)雅的進(jìn)行CPU時(shí)間分片調(diào)度從而實(shí)現(xiàn)資源隔離的功能;StarRocks采用大規(guī)模并行處理(MPP)架構(gòu),可以充分利用多機(jī)多核的集群資源,保證查詢性能可以線性擴(kuò)展;并用基于成本的優(yōu)化器CBO、RuntimeFilter、延遲物化、全局低基數(shù)字典等多種?段實(shí)現(xiàn)極致查詢性能。
2)在外部表聯(lián)邦查詢方面,StarRocks可通過創(chuàng)建外部表的?式,在 StarRocks 讀取其他數(shù)據(jù)源,如MySQL、Elasticsearch、Hive等外部表中的數(shù)據(jù),從?打破數(shù)據(jù)的隔離。以Hive外表功能為例,中信建投可以將其Hive中的離線數(shù)據(jù)導(dǎo)? StarRocks 中進(jìn)??性能分析查詢。同時(shí),StarRocks 也可以扮演數(shù)據(jù)湖的??,將離線數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)進(jìn)?關(guān)聯(lián),打通不同數(shù)據(jù)存儲(chǔ)間的壁壘,從??撐業(yè)務(wù)分析時(shí)在數(shù)據(jù)湖中進(jìn)?數(shù)據(jù)探查和極致分析的需求。
3)在預(yù)計(jì)算方面,為了實(shí)現(xiàn)固定報(bào)表的加速,StarRocks引入預(yù)計(jì)算的手段,通過創(chuàng)建多表、外表物化視圖的方式對(duì)明細(xì)數(shù)據(jù)進(jìn)行上卷和下鉆,復(fù)用常見查詢有效優(yōu)化了復(fù)雜SQL計(jì)算效率,滿足用戶對(duì)固定維度聚合分析以及原始明細(xì)數(shù)據(jù)任意維度分析的多樣需求。
中信建投統(tǒng)一查詢服務(wù)平臺(tái)落地后的效果與價(jià)值
第一,大數(shù)據(jù)查詢性能得到顯著提升。采用StarRocks內(nèi)部表加速明細(xì)數(shù)據(jù)關(guān)聯(lián)查詢,實(shí)現(xiàn)了上億級(jí)別數(shù)據(jù)量大表關(guān)聯(lián)秒級(jí)響應(yīng),內(nèi)表查詢效率提升10倍以上,外表查詢效率提升1倍以上,完全滿足大數(shù)據(jù)量下查詢分析及時(shí)響應(yīng)的需求;
第二,預(yù)計(jì)算能力降低了固定報(bào)表加工成本。采用StarRocks預(yù)計(jì)算能力可以將固定報(bào)表和API數(shù)據(jù)服務(wù)響應(yīng)速度提升1倍以上。多表物化視圖、外表物化視圖、QueryRewrite等高階功能,可以有效降低數(shù)據(jù)建模成本,使得“直面分析,按需加速”成為可能。
第三,降低數(shù)據(jù)遷移成本,提升數(shù)據(jù)管理和使用效率。StarRocks基于Hive外表做查詢,減少了元數(shù)據(jù)和底層數(shù)據(jù)的遷移成本,并實(shí)現(xiàn)了實(shí)時(shí)數(shù)據(jù)聯(lián)通分析。同時(shí),以StarRocks為統(tǒng)一數(shù)據(jù)服務(wù)入口,降低了整體數(shù)據(jù)查詢和加工的復(fù)雜度,提升了數(shù)據(jù)管理和使用效率。
項(xiàng)目經(jīng)驗(yàn)總結(jié)
中信建投進(jìn)行數(shù)字化轉(zhuǎn)型過程中已經(jīng)部署了大部分的數(shù)據(jù)基礎(chǔ)設(shè)施,但是已有的基于Hadoop構(gòu)建數(shù)據(jù)湖的體系在近兩年來暴露出眾多問題,已經(jīng)無法匹配業(yè)務(wù)的發(fā)展速度。中信建投基于自身業(yè)務(wù)需求和已有技術(shù)架構(gòu)情況選擇以StarRocks構(gòu)建統(tǒng)一數(shù)據(jù)服務(wù)入口的實(shí)踐,為同類型券商企業(yè)提供了以下經(jīng)驗(yàn)建議:
1) 分析型數(shù)據(jù)庫(kù)的選型需要充分考慮企業(yè)自身的用數(shù)需求,以及現(xiàn)有數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu),選擇符合自身實(shí)際情況的數(shù)據(jù)庫(kù)是獲得較好的落地效果的關(guān)鍵。例如,中信建投大部分的數(shù)據(jù)都存儲(chǔ)在Hive中,StarRocks提供的類Presto的外表查詢功能可以避免數(shù)據(jù)遷移增加的額外成本,同時(shí)也很好地滿足了公司的用數(shù)需求。
2) 隨著企業(yè)數(shù)據(jù)庫(kù)規(guī)模不斷增長(zhǎng),以及分析場(chǎng)景更加復(fù)雜,分析型數(shù)據(jù)庫(kù)需要不斷提升數(shù)據(jù)查詢分析的性能,以及針對(duì)固定報(bào)表、自助BI等各種應(yīng)用場(chǎng)景,提供場(chǎng)景化解決方案、生態(tài)工具,才能滿足用戶在數(shù)據(jù)查詢分析方面功能和性能的復(fù)雜需求。
3. 圖數(shù)據(jù)庫(kù)
3.1傳統(tǒng)數(shù)據(jù)庫(kù)關(guān)系查詢能力不足,圖數(shù)據(jù)庫(kù)及相關(guān)解決方案加速業(yè)務(wù)洞察
在各行各業(yè)中都存在著諸多依賴個(gè)體屬性及其之間關(guān)聯(lián)信息的場(chǎng)景,例如社交網(wǎng)絡(luò)、金融風(fēng)控、營(yíng)銷等,需要對(duì)單體之間的關(guān)系進(jìn)行識(shí)別,并對(duì)其特點(diǎn)進(jìn)行研究。然而,要在海量的數(shù)據(jù)中,發(fā)掘個(gè)體之間隱藏的聯(lián)系,是項(xiàng)很復(fù)雜工作,這為企業(yè)帶來了新的挑戰(zhàn)。具體而言,企業(yè)在關(guān)聯(lián)關(guān)系的探索上,存在以下難點(diǎn)或需求:
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)關(guān)聯(lián)關(guān)系查詢的支持有限。對(duì)于一些簡(jiǎn)單的關(guān)聯(lián)關(guān)系查詢,企業(yè)通常可以采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)解決,但關(guān)系型數(shù)據(jù)庫(kù)在進(jìn)行關(guān)聯(lián)信息檢索時(shí)需要執(zhí)行多個(gè)表的連接操作,在數(shù)據(jù)關(guān)系較復(fù)雜時(shí),會(huì)出現(xiàn)操作繁瑣,且性能嚴(yán)重不足,導(dǎo)致無法查詢結(jié)果的問題。因此,關(guān)系型數(shù)據(jù)庫(kù)在實(shí)際應(yīng)用中只能執(zhí)行一二度簡(jiǎn)單關(guān)系的查詢,而不具備復(fù)雜關(guān)系查詢的能力。
企業(yè)缺少相關(guān)分析工具和解決方案來對(duì)關(guān)聯(lián)數(shù)據(jù)進(jìn)行挖掘分析。在具體應(yīng)用場(chǎng)景中,關(guān)聯(lián)關(guān)系的查詢分析,除了需要底層數(shù)據(jù)庫(kù)引擎的支撐,通常還需要結(jié)合領(lǐng)域知識(shí),將關(guān)聯(lián)關(guān)系轉(zhuǎn)換為知識(shí)見解,幫助業(yè)務(wù)決策。此外,對(duì)于一些復(fù)雜的查詢分析,還需要一些AI算法來加速獲取結(jié)果。
為了解決企業(yè)在數(shù)據(jù)關(guān)系探索上的難題,針對(duì)數(shù)據(jù)關(guān)系進(jìn)行高效存儲(chǔ)和計(jì)算的圖數(shù)據(jù)庫(kù)獲得了企業(yè)的青睞。作為典型的非結(jié)構(gòu)化數(shù)據(jù)解決方案,圖數(shù)據(jù)庫(kù)將關(guān)聯(lián)數(shù)據(jù)的實(shí)體作為頂點(diǎn)存儲(chǔ),關(guān)系作為邊存儲(chǔ),突破了數(shù)據(jù)復(fù)雜關(guān)聯(lián)存儲(chǔ)查詢?cè)斐傻男阅芷款i。同時(shí),知識(shí)圖譜,以及圖分析算法也為圖數(shù)據(jù)的挖掘分析起到關(guān)鍵作用。圖數(shù)據(jù)庫(kù)及相關(guān)的解決方案具體包括如下三方面的內(nèi)容:
圖6:圖分析解決方案賦能數(shù)據(jù)關(guān)系洞察
高性能圖數(shù)據(jù)存儲(chǔ)與處理引擎。圖數(shù)據(jù)庫(kù)以圖模型存儲(chǔ)數(shù)據(jù),最大能高效地存儲(chǔ)萬億點(diǎn)邊的數(shù)據(jù),有效承載了企業(yè)沉淀的海量關(guān)系信息。借助優(yōu)秀的關(guān)系傳導(dǎo)能力,圖數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)高效的多跳查詢,以此發(fā)掘關(guān)系型數(shù)據(jù)庫(kù)無法發(fā)現(xiàn)的深度關(guān)系;
圖算法支持高效的數(shù)據(jù)關(guān)系挖掘。借助圖算法,用戶能夠?qū)崿F(xiàn)海量數(shù)據(jù)挖掘和復(fù)雜關(guān)系分析,例如最短路徑,社交網(wǎng)絡(luò)中心性、社區(qū)檢測(cè)、社群特征、相似性和分類等常用的圖算法,能夠幫助用戶在紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,輔助進(jìn)行業(yè)務(wù)決策;
知識(shí)圖譜平臺(tái)支持場(chǎng)景應(yīng)用。為了賦能業(yè)務(wù)場(chǎng)景,企業(yè)在具備圖數(shù)據(jù)庫(kù)引擎的基礎(chǔ)上,還需要構(gòu)建知識(shí)圖譜平臺(tái),將圖的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為知識(shí),從而形成業(yè)務(wù)洞察。通常,知識(shí)圖譜平臺(tái)需要具備兩大關(guān)鍵的能力:1)知識(shí)圖譜構(gòu)建,即利用圖譜構(gòu)建工具,實(shí)現(xiàn)知識(shí)抽取、知識(shí)表示和知識(shí)融合,從而構(gòu)建知識(shí)圖譜;2)知識(shí)推理計(jì)算,即通過推理計(jì)算引擎,結(jié)合行業(yè)知識(shí),發(fā)現(xiàn)知識(shí)中的顯性或隱性關(guān)系。
案例3:民生銀行基于圖數(shù)據(jù)庫(kù)構(gòu)建知識(shí)圖譜應(yīng)用平臺(tái),通過圖分析盤活數(shù)據(jù)資產(chǎn)
作為頭部股份制商業(yè)銀行,民生銀行始終堅(jiān)定踐行“民營(yíng)企業(yè)的銀行、敏捷開放的銀行、用心服務(wù)的銀行”的戰(zhàn)略定位,高度重視數(shù)字化轉(zhuǎn)型,主動(dòng)融入數(shù)字中國(guó)建設(shè),著力在“生態(tài)銀行”和“智慧銀行”兩大領(lǐng)域?qū)崿F(xiàn)突破和提升,致力于為客戶提供專業(yè)特色的現(xiàn)代金融服務(wù)。
隨著金融行業(yè)數(shù)智轉(zhuǎn)型的進(jìn)程加快,銀行業(yè)務(wù)數(shù)據(jù)量出現(xiàn)爆炸式增長(zhǎng),對(duì)金融行業(yè)的數(shù)據(jù)處理能力提出了更高要求。同時(shí),面向海量數(shù)據(jù)的充分沉淀,挖掘數(shù)據(jù)資產(chǎn)的潛在價(jià)值,釋放蘊(yùn)藏在數(shù)據(jù)要素中的生產(chǎn)力變得至關(guān)重要。對(duì)于民生銀行而言,全行業(yè)務(wù)場(chǎng)景眾多,由此積累了規(guī)模龐大的賬戶數(shù)據(jù),也帶來了豐富的用戶關(guān)系信息。在此基礎(chǔ)上,如何選擇新的數(shù)據(jù)庫(kù)進(jìn)行技術(shù)革新,賦能業(yè)務(wù)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的決策,成為民生銀行內(nèi)部一項(xiàng)重要的發(fā)展課題。具體而言,民生銀行需要采用新的數(shù)據(jù)技術(shù)解決以下難題:
1) 對(duì)大規(guī)模的業(yè)務(wù)數(shù)據(jù)進(jìn)行高效的關(guān)聯(lián)關(guān)系分析與挖掘。風(fēng)險(xiǎn)控制和營(yíng)銷作為銀行兩大重要業(yè)務(wù)發(fā)展手段,需要對(duì)海量用戶數(shù)據(jù)進(jìn)行深度關(guān)聯(lián)關(guān)系挖掘,以識(shí)別潛在風(fēng)險(xiǎn)、了解客戶偏好。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,數(shù)據(jù)被存儲(chǔ)在二維表中,使用關(guān)系模型檢索需要執(zhí)行多個(gè)表的連接操作,在深度關(guān)系挖掘能力與數(shù)據(jù)處理性能上表現(xiàn)嚴(yán)重不足;
2) 對(duì)行內(nèi)數(shù)據(jù)拉通整合,進(jìn)行統(tǒng)一的查詢分析。民生銀行內(nèi)部各個(gè)業(yè)務(wù)系統(tǒng)較為多元,但是未在數(shù)據(jù)層面打通,各個(gè)業(yè)務(wù)之間相對(duì)獨(dú)立,并未建立關(guān)聯(lián)關(guān)系。此外,業(yè)務(wù)人員缺少統(tǒng)一的應(yīng)用平臺(tái)對(duì)多元化的業(yè)務(wù)進(jìn)行全局聯(lián)通分析,數(shù)據(jù)管理分散,無法站在全局的視野分析業(yè)務(wù)變化,進(jìn)行實(shí)時(shí)決策;
3) 底層數(shù)據(jù)基礎(chǔ)設(shè)施的研發(fā)難度和成本較大,需要在解決技術(shù)難題的基礎(chǔ)上滿足大型企業(yè)要求的高可用、多租戶、權(quán)限管理等能力需求。此外,隨著國(guó)家信創(chuàng)政策日益嚴(yán)格,金融業(yè)作為國(guó)家經(jīng)濟(jì)命脈,必須充分實(shí)現(xiàn)關(guān)鍵數(shù)據(jù)基礎(chǔ)設(shè)施的國(guó)產(chǎn)化,具備數(shù)據(jù)庫(kù)系統(tǒng)的安全可控性,保障信息安全。
基于Galaxybase圖數(shù)據(jù)庫(kù)構(gòu)建知識(shí)圖譜應(yīng)用平臺(tái),賦能銀行業(yè)務(wù)升級(jí)
數(shù)字化轉(zhuǎn)型需求驅(qū)動(dòng)下,民生銀行需要挖掘數(shù)據(jù)關(guān)聯(lián)關(guān)系,發(fā)揮數(shù)字資產(chǎn)價(jià)值,更好地提升風(fēng)控、營(yíng)銷等核心業(yè)務(wù)能力。因此民生銀行決定通過招標(biāo)建設(shè)知識(shí)圖譜應(yīng)用平臺(tái),通過綜合考慮大規(guī)模的關(guān)聯(lián)關(guān)系查詢、多元化數(shù)據(jù)拉通整合、底層技術(shù)自主可控以及廠商技術(shù)領(lǐng)先性和實(shí)踐經(jīng)驗(yàn)等因素,最終創(chuàng)鄰科技從眾多圖數(shù)據(jù)庫(kù)廠商中脫穎而出。
創(chuàng)鄰科技是國(guó)內(nèi)領(lǐng)先的商業(yè)化高性能分布式圖數(shù)據(jù)庫(kù)供應(yīng)商,在分布式數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)并行處理、圖挖掘等領(lǐng)域有業(yè)界領(lǐng)先的技術(shù)儲(chǔ)備。創(chuàng)鄰科技聚焦金融板塊,目前已成功服務(wù)五大行、頭部股份制銀行以及城商行、農(nóng)商行等企業(yè)用戶,核心產(chǎn)品Galaxybase國(guó)產(chǎn)高性能圖平臺(tái)已累計(jì)支持?jǐn)?shù)萬億點(diǎn)邊的大型金融圖譜應(yīng)用,性能國(guó)際領(lǐng)先。
圖7:基于Galaxybase圖數(shù)據(jù)庫(kù)構(gòu)建的“萬象”知識(shí)圖譜應(yīng)用平臺(tái)
在創(chuàng)鄰科技的幫助下,民生銀行以大數(shù)據(jù)、人工智能技術(shù)為基礎(chǔ),引入Galaxybase圖數(shù)據(jù)庫(kù)構(gòu)建“萬象”知識(shí)圖譜應(yīng)用平臺(tái),提供信息展示和交互式分析,具備本體建模、圖譜構(gòu)建、圖譜挖掘、知識(shí)服務(wù)的一站式全流程應(yīng)用能力,助力民生銀行業(yè)務(wù)升級(jí)。具體而言,基于Galaxybase圖數(shù)據(jù)庫(kù)的“萬象”知識(shí)圖譜應(yīng)用平臺(tái)使民生銀行具備了以下能力:
1)借助Galaxybase圖數(shù)據(jù)庫(kù)的圖譜可視化和關(guān)系挖掘能力,民生銀行能夠基于圖譜對(duì)各類信息拉通聚合,進(jìn)行關(guān)聯(lián)關(guān)系挖掘,提供信息展示和交互式分析功能。以構(gòu)建企業(yè)全息圖譜為例,通過引入行外的全量工商、司法、知識(shí)產(chǎn)權(quán)等復(fù)雜數(shù)據(jù)且對(duì)企業(yè)的多重關(guān)系進(jìn)行分析和挖掘,能夠?qū)崿F(xiàn)關(guān)聯(lián)信息的高效聚合,直觀呈現(xiàn)復(fù)雜客戶關(guān)系網(wǎng)絡(luò),簡(jiǎn)化業(yè)務(wù)分析難度。
2)圖技術(shù)的形態(tài)識(shí)別和關(guān)系傳導(dǎo)能力可以在反欺詐業(yè)務(wù)中發(fā)揮重要作用,依托Galaxybase圖數(shù)據(jù)庫(kù)所具備的實(shí)時(shí)數(shù)據(jù)處理與圖構(gòu)建能力,“萬象”知識(shí)圖譜平臺(tái)能對(duì)信貸申請(qǐng)件數(shù)據(jù)進(jìn)行實(shí)時(shí)組網(wǎng),通過設(shè)備信息、地理位置信息、黑樣本、轉(zhuǎn)賬等關(guān)聯(lián)關(guān)系識(shí)別定位欺詐團(tuán)伙,并且結(jié)合傳統(tǒng)欺詐特征和網(wǎng)絡(luò)特征進(jìn)行機(jī)器學(xué)習(xí)對(duì)申請(qǐng)條件評(píng)分,有效識(shí)別欺詐申請(qǐng),進(jìn)行及時(shí)預(yù)警,實(shí)時(shí)攔截欺詐風(fēng)險(xiǎn),避免欺詐損失。
3)基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)推理,“萬象”知識(shí)圖譜平臺(tái)能夠提升銀行的營(yíng)銷能力。通過對(duì)涵蓋個(gè)人客戶的銀行客群建立經(jīng)營(yíng)分析圖譜,“萬象”知識(shí)圖譜平臺(tái)可以基于用戶關(guān)系鏈進(jìn)行社群關(guān)系推理,利用種子賬戶所在社群觸達(dá)全新用戶并實(shí)現(xiàn)拉新,由社群觸達(dá)的新成員,還能夠以不同的速度、方式和幅度進(jìn)行裂變傳播,有效解決傳統(tǒng)客戶管理系統(tǒng)獲客難的問題,達(dá)成“快速實(shí)現(xiàn)賬戶增長(zhǎng),低成本輕松獲客”的目標(biāo)。
為了滿足數(shù)據(jù)聯(lián)通整合的需求,民生銀行基于Galaxybase圖數(shù)據(jù)庫(kù)對(duì)行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線中的實(shí)體及元數(shù)據(jù)信息進(jìn)行了整合。同時(shí),平臺(tái)配備可視化圖分析平臺(tái),業(yè)務(wù)人員無需編程技能即可通過可視化圖形配置界面構(gòu)建知識(shí)圖譜、部署圖算法、執(zhí)行計(jì)算并展示結(jié)果。
此外,Galaxybase圖數(shù)據(jù)庫(kù)具備企業(yè)級(jí)特性,通過主備集群能力支持?jǐn)?shù)據(jù)庫(kù)高可用,并且提供企業(yè)級(jí)的運(yùn)維管理和安全監(jiān)控能力,支持點(diǎn)邊類型和屬性的細(xì)粒度權(quán)限管理。在信創(chuàng)方面,Galaxybase圖數(shù)據(jù)庫(kù)為國(guó)產(chǎn)自研產(chǎn)品,能夠滿足金融行業(yè)對(duì)數(shù)據(jù)技術(shù)安全自主可控的要求。
“萬象”知識(shí)圖譜平臺(tái)落地后的效果與價(jià)值
第一, 打破數(shù)據(jù)孤島,支撐海量數(shù)據(jù)的實(shí)時(shí)分析與關(guān)聯(lián)價(jià)值挖掘。通過構(gòu)建“萬象”知識(shí)圖譜應(yīng)用平臺(tái),民生銀行能對(duì)行內(nèi)外跨部門、跨產(chǎn)品、跨業(yè)務(wù)線中的實(shí)體及元數(shù)據(jù)信息進(jìn)行整合,構(gòu)建多觸點(diǎn)、全維度的可視化關(guān)聯(lián)信息圖譜,提供360°全景可視化視圖,破除數(shù)據(jù)孤島。同時(shí),“萬象”知識(shí)圖譜平臺(tái)底層采用的分布式架構(gòu)支持動(dòng)態(tài)在線擴(kuò)容,新進(jìn)的業(yè)務(wù)數(shù)據(jù)也能夠?qū)崟r(shí)入網(wǎng),業(yè)務(wù)人員能夠結(jié)合不同的場(chǎng)景利用知識(shí)圖譜進(jìn)行實(shí)時(shí)決策。
第二, 圖譜可視化技術(shù)為用戶提供業(yè)務(wù)全流程數(shù)據(jù)關(guān)系展現(xiàn)?!叭f象”知識(shí)圖譜平臺(tái)能夠?yàn)闃I(yè)務(wù)系統(tǒng)輸出圖查詢、關(guān)聯(lián)和計(jì)算能力,同時(shí)為業(yè)務(wù)分析人員提供全息圖譜,提升內(nèi)外數(shù)據(jù)關(guān)聯(lián)分析能力;針對(duì)研發(fā)人員,則提供數(shù)據(jù)關(guān)聯(lián)關(guān)系分析平臺(tái),分析挖掘環(huán)境更加便利,可實(shí)現(xiàn)便捷的可視化建模。最后,“萬象”知識(shí)圖譜平臺(tái)能夠?yàn)闃I(yè)務(wù)沉淀出一系列可視化數(shù)據(jù)產(chǎn)品,實(shí)現(xiàn)全流程業(yè)務(wù)能力升級(jí)。
第三, 強(qiáng)勁的多跳查詢性能幫助銀行實(shí)現(xiàn)實(shí)時(shí)深挖隱藏關(guān)聯(lián)關(guān)系。依托于Galaxybase原生分布式并行圖數(shù)據(jù)庫(kù)可以極快地處理復(fù)雜的多跳關(guān)聯(lián)關(guān)系,“萬象”知識(shí)圖譜應(yīng)用平臺(tái)能夠?qū)τ阢y行的海量業(yè)務(wù)數(shù)據(jù)進(jìn)行多跳查詢,挖掘查找數(shù)據(jù)間的異常關(guān)聯(lián)關(guān)系,因此能夠快速對(duì)傳統(tǒng)方法不能找到的風(fēng)險(xiǎn)進(jìn)行預(yù)判和警報(bào),完美契合銀行的反洗錢、反欺詐、對(duì)公信貸等業(yè)務(wù)。
項(xiàng)目經(jīng)驗(yàn)總結(jié)
在數(shù)字經(jīng)濟(jì)時(shí)代,為了實(shí)現(xiàn)數(shù)據(jù)價(jià)值的充分釋放,就需要將數(shù)據(jù)進(jìn)行關(guān)聯(lián),從單純的數(shù)據(jù)管理轉(zhuǎn)變?yōu)閿?shù)據(jù)關(guān)系的挖掘、分析和利用。民生銀行引入創(chuàng)鄰科技Galaxybase圖平臺(tái)建設(shè)知識(shí)圖譜應(yīng)用平臺(tái)的實(shí)踐,為同類型的業(yè)務(wù)場(chǎng)景提供了以下圖數(shù)據(jù)庫(kù)及相關(guān)應(yīng)用的選型和使用經(jīng)驗(yàn):
1)關(guān)注圖數(shù)據(jù)庫(kù)底層技術(shù)支撐能力。銀行業(yè)務(wù)數(shù)字化的快速發(fā)展一定會(huì)造成行內(nèi)數(shù)據(jù)量爆發(fā)式增長(zhǎng),銀行企業(yè)在選擇圖數(shù)據(jù)庫(kù)時(shí)一定要考慮在超大數(shù)據(jù)規(guī)模下的底層數(shù)據(jù)庫(kù)支撐能力,要能夠在不降低查詢和計(jì)算性能的情況下高效實(shí)現(xiàn)知識(shí)圖譜的構(gòu)建;同時(shí),對(duì)于關(guān)聯(lián)關(guān)系的深度挖掘,銀行企業(yè)需要關(guān)注圖數(shù)據(jù)庫(kù)的多跳查詢性能,能夠?qū)崟r(shí)挖掘復(fù)雜關(guān)系是關(guān)鍵。
2)重視信創(chuàng)政策,推進(jìn)底層國(guó)產(chǎn)化替代。對(duì)于金融機(jī)構(gòu)而言,實(shí)現(xiàn)底層數(shù)據(jù)基礎(chǔ)設(shè)施的國(guó)產(chǎn)化有助于保證整體系統(tǒng)安全穩(wěn)定地運(yùn)行,而且數(shù)據(jù)庫(kù)及其配套應(yīng)用需要不斷迭代和適配來滿足未來業(yè)務(wù)場(chǎng)景的拓展,建議各銀行在招標(biāo)過程中將圖數(shù)據(jù)庫(kù)的國(guó)產(chǎn)技術(shù)和圖應(yīng)用解決方案綜合實(shí)力納入考慮,旨在減少后續(xù)更換底層數(shù)據(jù)庫(kù)的潛在風(fēng)險(xiǎn)和成本。
4. 超融合數(shù)據(jù)庫(kù)
4.1企業(yè)多元化快速發(fā)展,超融合數(shù)據(jù)庫(kù)在單一技術(shù)棧上滿足各業(yè)務(wù)需求
在數(shù)字化轉(zhuǎn)型的驅(qū)動(dòng)下,中大型企業(yè)在復(fù)雜多樣的業(yè)務(wù)場(chǎng)景下沉淀了海量多源異構(gòu)的數(shù)據(jù),而且由于業(yè)務(wù)持續(xù)擴(kuò)張?jiān)鲩L(zhǎng)的趨勢(shì),部分企業(yè)需要不斷加強(qiáng)數(shù)字化建設(shè)的力度來匹配業(yè)務(wù)的發(fā)展速度。在這種情況下,中大型企業(yè)現(xiàn)有的數(shù)據(jù)庫(kù)解決方案在企業(yè)需求的增長(zhǎng)下變得愈發(fā)難以為繼。具體而言,業(yè)務(wù)的極速發(fā)展和數(shù)字化帶來數(shù)據(jù)規(guī)模膨脹、數(shù)據(jù)類型多樣化使得現(xiàn)有的數(shù)據(jù)庫(kù)設(shè)施遇到了以下方面的難題:
圖8:大數(shù)據(jù)量、多數(shù)據(jù)類型帶來的數(shù)據(jù)庫(kù)使用問題
1. 承載數(shù)據(jù)類型有限。業(yè)務(wù)場(chǎng)景的拓展帶來了更加復(fù)雜的數(shù)據(jù)類型,企業(yè)需要對(duì)異構(gòu)的數(shù)據(jù)進(jìn)行高效存儲(chǔ)以便后續(xù)查詢分析,而傳統(tǒng)的關(guān)系型數(shù)據(jù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的承載能力有限。通過引入專用的非結(jié)構(gòu)化數(shù)據(jù)庫(kù),企業(yè)雖然可以存儲(chǔ)與之相對(duì)應(yīng)的非結(jié)構(gòu)化數(shù)據(jù),但是卻造成數(shù)據(jù)庫(kù)系統(tǒng)分散獨(dú)立的情況,難以統(tǒng)一維護(hù)管理,從而帶來額外的運(yùn)維成本。
2. 海量數(shù)據(jù)查詢遇到數(shù)據(jù)庫(kù)性能的瓶頸。隨著大型企業(yè)快速發(fā)展帶來的數(shù)據(jù)規(guī)模膨脹以及查詢復(fù)雜度的提升,原有數(shù)據(jù)庫(kù)在響應(yīng)速度上難以滿足企業(yè)實(shí)時(shí)查詢分析的需求,從而導(dǎo)致業(yè)務(wù)運(yùn)轉(zhuǎn)停頓或無法進(jìn)行數(shù)據(jù)決策。
為了解決企業(yè)在業(yè)務(wù)快速發(fā)展過程中遇到的多數(shù)據(jù)類型和性能方面的難題,超融合數(shù)據(jù)庫(kù)是在內(nèi)核層面采用模塊化和插件化的架構(gòu),通過插拔不同類型的數(shù)據(jù)引擎,實(shí)現(xiàn)對(duì)不同模型數(shù)據(jù)進(jìn)行處理能力的數(shù)據(jù)庫(kù)。超融合數(shù)據(jù)庫(kù)能夠支持用戶在一套系統(tǒng)中統(tǒng)一處理關(guān)系、圖、時(shí)序、文檔等多種模型的數(shù)據(jù),簡(jiǎn)易的架構(gòu)不會(huì)為企業(yè)增加過多的運(yùn)維管理成本。同時(shí),超融合數(shù)據(jù)庫(kù)具備與常見的專用數(shù)據(jù)庫(kù)或大數(shù)據(jù)引擎同等或更好的性能表現(xiàn)。具體而言,超融合數(shù)據(jù)庫(kù)為企業(yè)帶來了以下優(yōu)勢(shì):
圖9:超融合數(shù)據(jù)庫(kù)支持多類型數(shù)據(jù),單一架構(gòu)簡(jiǎn)化運(yùn)維
1. 支持多種類型數(shù)據(jù)。超融合數(shù)據(jù)庫(kù)在單一架構(gòu)上實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的融通管理,通過部署適用于不同數(shù)據(jù)類型的存儲(chǔ)和計(jì)算引擎,超融合數(shù)據(jù)庫(kù)實(shí)現(xiàn)了多種異構(gòu)數(shù)據(jù),例如結(jié)構(gòu)化數(shù)據(jù)、時(shí)序數(shù)據(jù)、圖數(shù)據(jù)等,的統(tǒng)一寫入、存儲(chǔ)和管理。
2. 簡(jiǎn)化運(yùn)維。超融合數(shù)據(jù)庫(kù)采用創(chuàng)新性架構(gòu),利用模塊化的引擎來支持不同類型數(shù)據(jù)的存儲(chǔ)和計(jì)算,避免了引入多種專用數(shù)據(jù)庫(kù)造成系統(tǒng)冗余的情況。此外,超融合數(shù)據(jù)庫(kù)使用統(tǒng)一的應(yīng)用訪問接口和優(yōu)化器簡(jiǎn)化系統(tǒng)架構(gòu),在有效支撐業(yè)務(wù)發(fā)展的前提下,極大減少了數(shù)據(jù)庫(kù)的運(yùn)維成本。
3. 查詢分析性能提升。超融合數(shù)據(jù)庫(kù)相比常見的大數(shù)據(jù)引擎具備更強(qiáng)的性能表現(xiàn),在單表查詢、復(fù)雜SQL運(yùn)算等能力上均有顯著的提升。此外,超融合數(shù)據(jù)庫(kù)還針對(duì)不同類型數(shù)據(jù)的處理需求進(jìn)行優(yōu)化,以獲得比常見專用數(shù)據(jù)庫(kù)更強(qiáng)的性能表現(xiàn)??傮w而言,強(qiáng)勁的性能表現(xiàn)能夠縮短數(shù)據(jù)庫(kù)服務(wù)響應(yīng)時(shí)間,能夠使業(yè)務(wù)運(yùn)行更加流暢,及時(shí)支撐實(shí)時(shí)決策。
案例4:某新能源頭部制造企業(yè)基于超融合數(shù)據(jù)庫(kù)打造“數(shù)據(jù)湖倉(cāng)平臺(tái)”,支撐企業(yè)高速發(fā)展
伴隨近年來新能源汽車在全球范圍內(nèi)的銷量劇增,處于新能源汽車產(chǎn)業(yè)鏈重要位置的國(guó)內(nèi)某頭部制造企業(yè)也迎來了業(yè)務(wù)的快速發(fā)展。為了提高產(chǎn)能,并降本增效,該企業(yè)需要不斷加強(qiáng)數(shù)字化建設(shè),以支撐全球產(chǎn)品溯源追蹤、生產(chǎn)及售后運(yùn)營(yíng)分析、設(shè)備預(yù)測(cè)性維護(hù)等多項(xiàng)業(yè)務(wù)。
然而,隨著該企業(yè)業(yè)務(wù)規(guī)模的迅速擴(kuò)張,其需要處理的數(shù)據(jù)規(guī)模急劇膨脹,數(shù)據(jù)類型也比以往更加復(fù)雜,導(dǎo)致該企業(yè)原先基于MySQL、Greenplum構(gòu)建的數(shù)據(jù)庫(kù)系統(tǒng)面臨顯著的性能和功能瓶頸,也給該企業(yè)的業(yè)務(wù)開展帶來以下挑戰(zhàn):
1)原有數(shù)倉(cāng)集群遭遇性能瓶頸,維護(hù)擴(kuò)容復(fù)雜,難以應(yīng)對(duì)業(yè)務(wù)快速增長(zhǎng)需求。
隨著業(yè)務(wù)的快速擴(kuò)展,帶來數(shù)據(jù)規(guī)模的快速增長(zhǎng),以及查詢復(fù)雜度快速提升,原有集群的 CPU 使用率長(zhǎng)期維持高位運(yùn)行,導(dǎo)致計(jì)算和查詢作業(yè)長(zhǎng)時(shí)間排隊(duì),致使業(yè)務(wù)間歇性卡頓,部分大型報(bào)表的等待時(shí)間甚至超過30 分鐘,嚴(yán)重影響了業(yè)務(wù)的運(yùn)行效率和使用體驗(yàn)。另一方面,原有數(shù)倉(cāng)平臺(tái)的擴(kuò)容也需要伴隨較長(zhǎng)時(shí)間的停機(jī)等待,同時(shí)不支持?jǐn)?shù)據(jù)的分層存儲(chǔ)管理,這使得對(duì)原有平臺(tái)進(jìn)行不斷擴(kuò)容,在時(shí)間和成本上都不可持續(xù)。
2)智能制造亟待擴(kuò)充復(fù)雜時(shí)序處理及分析能力。
該企業(yè)作為大型制造業(yè)集團(tuán),也在積極探索智能制造的轉(zhuǎn)型創(chuàng)新,而首要的是對(duì)廣大的生產(chǎn)裝備進(jìn)行數(shù)字化升級(jí),這帶來廣泛的 IoT 場(chǎng)景需求。在其整體數(shù)據(jù)結(jié)構(gòu)中,除了由常見的 MES、ERP 系統(tǒng)所產(chǎn)生的關(guān)系型數(shù)據(jù),還有由數(shù)采單元面向設(shè)備、物料和流程采集到的時(shí)序、GIS 等類型數(shù)據(jù),比如涵蓋近百個(gè)指標(biāo)的生產(chǎn)制造設(shè)備工況數(shù)據(jù)、已售出產(chǎn)品的運(yùn)行數(shù)據(jù)以及歷史維修數(shù)據(jù)等。目前架構(gòu)中是通過 MySQL 和 Greenplum 來承載時(shí)序數(shù)據(jù),但 MySQL 及 Greenplum 并不具備專門針對(duì)時(shí)序場(chǎng)景的強(qiáng)化特性及功能,數(shù)據(jù)承載力和查詢能力都十分有限:
? 寫入性能:無法承載超大設(shè)備帶來的海量數(shù)據(jù)寫入負(fù)載;
? 寫入功能:無法支持動(dòng)態(tài)、亂序、延遲寫入,以應(yīng)對(duì)復(fù)雜工況下的數(shù)據(jù)產(chǎn)生環(huán)境;
? 查詢能力:點(diǎn)查詢性能有限,沒有窗口查詢、庫(kù)內(nèi)機(jī)器學(xué)習(xí)等。
3)數(shù)據(jù)量倍數(shù)增張,總部中心集群負(fù)載壓力大
目前,該企業(yè)集團(tuán)在全國(guó)擁有數(shù)十家分支生產(chǎn)基地,每個(gè)生產(chǎn)基地的產(chǎn)線系統(tǒng)都需要高性能及可靠穩(wěn)定的數(shù)據(jù)管理系統(tǒng)。面向未來,預(yù)期整個(gè)集團(tuán)將持續(xù)以倍數(shù)級(jí)擴(kuò)充產(chǎn)能,產(chǎn)線數(shù)據(jù)量將翻倍增長(zhǎng),對(duì)數(shù)據(jù)管理的承載力、效率、成本和易用性都提出了更高標(biāo)準(zhǔn)。
目前所有數(shù)據(jù)直接進(jìn)入總部,對(duì)總部集群造成很大負(fù)載壓力。除了持續(xù)擴(kuò)容外,在不增加太多運(yùn)維復(fù)雜度的基礎(chǔ)上,客戶迫切希望建立一套總分結(jié)合的“總部(云)+工廠(邊)”協(xié)同架構(gòu),在增強(qiáng)整體數(shù)據(jù)承載能力的同時(shí),也優(yōu)化各子公司的數(shù)據(jù)平臺(tái)能力,實(shí)現(xiàn)對(duì)整體數(shù)據(jù)管理與治理能力的升級(jí)。
基于超融合數(shù)據(jù)庫(kù),實(shí)現(xiàn)一套系統(tǒng)滿足企業(yè)多種類型數(shù)據(jù)存儲(chǔ)與處理需求
為了滿足對(duì)大規(guī)模、多源異構(gòu)數(shù)據(jù)的存儲(chǔ)與處理需求,該企業(yè)需要引入新的數(shù)據(jù)基座來替換原先的MySQL、Greenplum數(shù)據(jù)庫(kù)。在此過程中,該企業(yè)考慮過Hadoop技術(shù)棧,但基于Hadoop技術(shù)棧滿足業(yè)務(wù)需求,需要同時(shí)構(gòu)建非常復(fù)雜的開發(fā)和運(yùn)維體系,成本過高。
由于YMatrix超融合數(shù)據(jù)庫(kù)具備高性能、支持多種數(shù)據(jù)類型、運(yùn)維簡(jiǎn)單等優(yōu)勢(shì),便成為了該企業(yè)的的最終選擇。
YMatrix成立于 2020 年,是一家創(chuàng)新型基礎(chǔ)軟件公司,致力于物聯(lián)網(wǎng)時(shí)代新一代數(shù)據(jù)基礎(chǔ)設(shè)施軟件的研發(fā),并提供相關(guān)產(chǎn)品、解決方案及一站式商業(yè)服務(wù)。公司在業(yè)界率先提出超融合數(shù)據(jù)庫(kù)理念,并發(fā)布了 YMatrix 超融合數(shù)據(jù)庫(kù),基于獨(dú)創(chuàng)的多微內(nèi)核開放架構(gòu),在單一數(shù)據(jù)庫(kù)之上,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融通管理,及全場(chǎng)景查詢分析的統(tǒng)一支持。YMatrix超融合數(shù)據(jù)庫(kù)可面向物聯(lián)網(wǎng)應(yīng)用、工業(yè)互聯(lián)網(wǎng)、智能運(yùn)維、智慧城市、智能家居、車聯(lián)網(wǎng)等場(chǎng)景,提供架構(gòu)簡(jiǎn)潔、功能豐富的數(shù)據(jù)基礎(chǔ)設(shè)施,并已在多家行業(yè)頭部公司成功實(shí)現(xiàn)商業(yè)化落地。
圖10:某新能源頭部制造企業(yè)基于超融合數(shù)據(jù)庫(kù)打造的“數(shù)據(jù)湖倉(cāng)平臺(tái)”
YMatrix超融合數(shù)據(jù)庫(kù)在該企業(yè)內(nèi)替代了原先的MySQl、Greenplum等數(shù)據(jù)庫(kù),在支持多種類型數(shù)據(jù)的存儲(chǔ)、匯集與管理的同時(shí),通過全面的功能承接了各類業(yè)務(wù)需求。具體而言,YMatrix超融合數(shù)據(jù)庫(kù)的以下功能特性解決了該企業(yè)此前存在的各種問題:
1)支持多種數(shù)據(jù)。由YMatrix超融合數(shù)據(jù)庫(kù)承建數(shù)據(jù)湖倉(cāng)平臺(tái),對(duì)接產(chǎn)線MES系統(tǒng)、ERP系統(tǒng)及給類型生產(chǎn)設(shè)備數(shù)采系統(tǒng)等,將TP業(yè)務(wù)數(shù)據(jù)、時(shí)序數(shù)據(jù)、GIS數(shù)據(jù)、JSON文本數(shù)據(jù),以及過去的歷史數(shù)據(jù)等等多種數(shù)據(jù),統(tǒng)一進(jìn)行寫入、存儲(chǔ)、管理,支持?jǐn)?shù)據(jù)亂序、延遲寫入,支持ACID以確保數(shù)據(jù)完整性;
2)提供統(tǒng)一的查詢。YMatrix超融合數(shù)據(jù)庫(kù)通過標(biāo)準(zhǔn)SQL提供多類型數(shù)據(jù)查詢,在數(shù)據(jù)湖內(nèi)實(shí)現(xiàn)數(shù)據(jù)的跨類型聯(lián)合分析,而無需再并行建設(shè)專門的技術(shù)棧;
3)支持庫(kù)內(nèi)機(jī)器學(xué)習(xí)。YMatrix超融合數(shù)據(jù)庫(kù)支持庫(kù)內(nèi)機(jī)器學(xué)習(xí)建模,可代替Flink + Spark,使算法建模及計(jì)算在YMatrix集群內(nèi)實(shí)現(xiàn),無需大規(guī)模的數(shù)據(jù)ETL過程,大幅簡(jiǎn)化系統(tǒng)架構(gòu),且性能大幅提升,算法分析工作效率提升10倍;
4)較高的查詢性能。YMatrix超融合數(shù)據(jù)庫(kù)針對(duì)寫入和分析等重點(diǎn)領(lǐng)域進(jìn)行了多達(dá)138項(xiàng)深度的指令級(jí)的優(yōu)化,能夠在單表查詢、多表關(guān)聯(lián)分析、時(shí)序數(shù)據(jù)查詢等常用場(chǎng)景上獲得比主流專用數(shù)據(jù)庫(kù)更高的性能。
5)簡(jiǎn)化運(yùn)維。YMatrix超融合數(shù)據(jù)庫(kù)技術(shù)架構(gòu)簡(jiǎn)化靈活,運(yùn)維人員需要管理的技術(shù)棧變少,因此從根源上降低了其運(yùn)維復(fù)雜度。同時(shí),YMatrix超融合數(shù)據(jù)庫(kù)提供大量圖形化及自動(dòng)化的運(yùn)維能力,包括:在線擴(kuò)容、自動(dòng)數(shù)據(jù)平衡、數(shù)據(jù)生命周期管理、運(yùn)維監(jiān)控等,幫助用戶降低操作門檻、獲得更好的使用體驗(yàn)以及更加自動(dòng)化的作業(yè)能力。
此外,為了降低總部中心集群負(fù)載壓力,YMatrix為該企業(yè)建設(shè)了邊緣數(shù)倉(cāng),即在分支工廠部署獨(dú)立數(shù)倉(cāng)平臺(tái),承載工廠的 MES、ERP、PLM 等各系統(tǒng)數(shù)據(jù),完成這些生產(chǎn)數(shù)據(jù)在本級(jí)的數(shù)據(jù)歸集,同時(shí)進(jìn)行預(yù)處理查詢分析,篩選出符合總部需要的數(shù)據(jù)后再上傳總部集群。新構(gòu)建的“總部(云)+ 工廠(邊)”協(xié)同架構(gòu),在強(qiáng)化本地?cái)?shù)據(jù)就近處理的能力之上,有效降低了集團(tuán)集群的負(fù)載,為后期業(yè)務(wù)的長(zhǎng)期穩(wěn)定運(yùn)行及良性擴(kuò)展奠定架構(gòu)基礎(chǔ)。
超融合數(shù)據(jù)庫(kù)落地后的價(jià)值與效果
第一, 性能大幅提升,為應(yīng)對(duì)業(yè)務(wù)量大規(guī)模擴(kuò)張奠定基礎(chǔ)。在使用YMatrix超融合數(shù)據(jù)庫(kù)后,該企業(yè)解決了原有集群性能不足、擴(kuò)容服務(wù)器耗時(shí)長(zhǎng)、報(bào)表查詢等待過久等各項(xiàng)問題,查詢耗時(shí)最高縮短79%,為平臺(tái)支撐的各項(xiàng)業(yè)務(wù)服務(wù)體驗(yàn)提供充沛的性能支持。
第二, 為數(shù)智化創(chuàng)新提供新一代通用數(shù)據(jù)基座,并提供更友好的使用體驗(yàn),大幅降低運(yùn)維復(fù)雜度。通過 YMatrix超融合數(shù)據(jù)庫(kù),支持多模態(tài)數(shù)據(jù)的全場(chǎng)景查詢分析需求,能夠服務(wù)企業(yè)級(jí)用戶未來 5-10 年可能存在的需求,幫助該企業(yè)避免了產(chǎn)品疊加或技術(shù)架構(gòu)反復(fù)調(diào)整帶來的技術(shù)風(fēng)險(xiǎn)和不必要成本。同時(shí),YMatrix超融合數(shù)據(jù)庫(kù)通過數(shù)據(jù)超融合能力大幅精簡(jiǎn)了系統(tǒng)架構(gòu),并供大量圖形化及自動(dòng)化的運(yùn)維能力,從而降低了數(shù)據(jù)庫(kù)的運(yùn)維復(fù)雜度,讓用戶工作更加專注,作業(yè)更加高效。
第三, 數(shù)據(jù)管理成本獲得有效控制,同時(shí)降低總部集群的壓力。YMatrix超融合數(shù)據(jù)庫(kù)在為?數(shù)據(jù)平臺(tái)帶來了上述優(yōu)化與新功能的同時(shí),在保證性能滿?需求的前提下,使得該企業(yè)每年在資源上的成本開銷減少了?少30%。同時(shí),通過搭建更科學(xué)經(jīng)濟(jì)的“總部(云)+ 工廠(邊)”協(xié)同架構(gòu),減少數(shù)據(jù)傳輸成本的同時(shí),降低因組織結(jié)構(gòu)龐大、產(chǎn)能持續(xù)壯大給總部集群帶來的壓力。
項(xiàng)目經(jīng)驗(yàn)總結(jié)
當(dāng)前,中國(guó)正在從“制造大國(guó)”向“制造強(qiáng)國(guó)”轉(zhuǎn)型,與此同時(shí),一批代表著戰(zhàn)略新興行業(yè)方向的制造業(yè)企業(yè)在市場(chǎng)需求以及政策推動(dòng)下,正處在高速發(fā)展過程中。為了實(shí)現(xiàn)這樣的目標(biāo),數(shù)智化在其中將會(huì)起到關(guān)鍵支撐作用。我們認(rèn)為,上述新能源頭部制造企業(yè)與YMatrix合作的案例,可以為同樣處于快速發(fā)展階段的制造業(yè)企業(yè)帶來以下借鑒意義:
第一, 數(shù)據(jù)基座的選型需要超前考慮中長(zhǎng)期的業(yè)務(wù)發(fā)展需求。隨著企業(yè)業(yè)務(wù)的快速發(fā)展,企業(yè)內(nèi)部數(shù)據(jù)量必然迅速增長(zhǎng),數(shù)據(jù)類型也將變得更加復(fù)雜。由于數(shù)據(jù)庫(kù)等基礎(chǔ)設(shè)施的遷移是項(xiàng)成本非常高昂的工作,企業(yè)在選型時(shí)需要充分評(píng)估未來5-10年的業(yè)務(wù)需求,選擇能夠應(yīng)對(duì)中長(zhǎng)期數(shù)據(jù)存儲(chǔ)和處理需求的數(shù)據(jù)基座。
第二, 為避免傳統(tǒng)方案復(fù)雜的開發(fā)和運(yùn)維,企業(yè)可以考慮創(chuàng)新性的超融合數(shù)據(jù)庫(kù)。盡管市場(chǎng)上有一些大數(shù)據(jù)方案能夠滿足企業(yè)各類復(fù)雜的數(shù)據(jù)存儲(chǔ)和處理需求,如Hadoop技術(shù)棧,但面對(duì)企業(yè)復(fù)雜的需求,其開發(fā)和運(yùn)維也非常復(fù)雜。超融合數(shù)據(jù)庫(kù)在簡(jiǎn)化系統(tǒng)架構(gòu)的同時(shí),具備支持多種數(shù)據(jù)類型、性能高、運(yùn)維簡(jiǎn)單等優(yōu)勢(shì),是處于快速發(fā)展階段的企業(yè)非常理想的選擇。
5. 結(jié)語
從本報(bào)告所挑選的多個(gè)案例中,我們可以看到,看似已經(jīng)非常成熟的數(shù)據(jù)庫(kù)市場(chǎng),在各個(gè)細(xì)分方向一直在適應(yīng)企業(yè)不斷變化的需求,往更強(qiáng)的性能、更豐富的功能,更簡(jiǎn)化的使用和運(yùn)維的方向進(jìn)化,并且這個(gè)趨勢(shì)還在延續(xù)當(dāng)中。
而對(duì)于每個(gè)企業(yè)而言,當(dāng)它們?cè)趯?duì)數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行規(guī)劃,對(duì)數(shù)據(jù)庫(kù)升級(jí)換代時(shí),需要結(jié)合企業(yè)內(nèi)部情況權(quán)衡多方面的問題。既要對(duì)業(yè)務(wù)需求進(jìn)行全局思考,選擇能夠適應(yīng)企業(yè)未來發(fā)展的技術(shù)架構(gòu),也要結(jié)合企業(yè)現(xiàn)階段數(shù)據(jù)基礎(chǔ),滿足在性能、功能、運(yùn)維等各方面要求的同時(shí),選擇成本更低、使用更簡(jiǎn)單的數(shù)據(jù)庫(kù)方案。
來源:號(hào)外網(wǎng)
網(wǎng)站簡(jiǎn)介 / 廣告服務(wù) / 聯(lián)系我們
主辦:華夏經(jīng)緯信息科技有限公司 版權(quán)所有 華夏經(jīng)緯網(wǎng)
Copyright 2001-2024 By 612g.cn