<bdo id="vljxk"><rt id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt><rt id="vljxk"></rt><noframes id="vljxk"><rt id="vljxk"><delect id="vljxk"></delect></rt><noframes id="vljxk"><rt id="vljxk"></rt><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt>

  1. 創業頭條
  2. 前沿領域
  3. 大數據
  4. 正文

國產數據庫硬核技術又破紀錄?

 2020-08-19 14:55  來源:互聯網  我來投稿 撤稿糾錯

  阿里云優惠券 先領券再下單

國產數據庫領域有人“破世界紀錄”了 ,創紀錄達7.6倍!

最近中國軟件網注意到一份數據庫前沿技術領域的測試報告——《TuGrpah基于LDBC-SNB的測試報告》。http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf

這是國際圖數據非盈利組織針對國內的一款圖數據庫產品發布的一份專業報告,是備受關注的圖數據庫領域的權威基準測試報告。

就是在這份報告,費馬科技用數據證明:他們公司推出的圖數據庫產品——TuGraph,在嚴格準守LDBC-SNB規范中的測試中,比LDBC官網目前排名第一的圖數據庫產品要好得多。

報告結果顯示,TuGraph的得分接近或超過5000。這一結果遠高于目前LDBC-SNB已經公布的最高紀錄(由Virtuoso保持),約為當前紀錄的7.6倍。

圖1. 審計測試成功的聲明頁截圖(含認證審計員,LDBC SNB任務組主任和費馬科技CTO的簽名)

數據庫一直是我國IT核心技術中內心深處的痛。圖數據庫是數據庫領域非常重要的一個發展方向,也是很多新興數據庫廠商希望能成為獨角獸的土壤。正是圖數據庫、正是這個結果,引起了中國軟件網的關注。

關于LDBC與SNB測試

關聯數據基準委員會(LDBC,Linked Data Benchmark Council)是由廠商成員、非盈利組織成員、個人成員共同組成的,匯聚了各界圖數據領域的學者,共同推進圖數據發展。就像TPC(Transaction Processing Performance Council,事務處理性能委員會)是制定商務應用基準程序的標準規范、性能和價格度量,并管理測試結果發布的機構。LDBC是圖(Graph)和RDF數據管理的基準指南制定者與測試結果發布機構。

社交網路基準(SNB,Social Network Benchmark)是關聯數據基準委員會(LDBC)發布的基準測試程序之一。它通過兩個典型場景來評價圖數據庫。這兩個場景分別是:

•交互場景(interactive), 事務查詢任務(transaction query workload),類似OLTP。

•商務智能場景(business intelligence),統計查詢任務(analytical query workload) ,類似OLAP。

目前,LDBC-SNB Benchmark(http://ldbcouncil.org/benchmarks/snb)是數據庫業界權威的衡量圖數據庫和圖數據管理系統的重要參照標準。LDBC采用開源的做法,遵循GPLv3。它的基準(Benchmark)標準文檔,評估基準要用到軟件和工具的源碼,以及問題跟蹤、技術文檔都發布在開源網站上。

關于測試過程

費馬科技從測試環境準備,測試數據生成和導入,測試例程序(Plugins)的安裝和執行,以及結果正確性的驗證,整個過程由LDBC指定的第三方在亞馬遜公有云上進行,過程中所使用的所有程序和腳本都是公開的,并且整個測試流程由第三方人員完成,保證測試過程的公正、公平、公開。測試結果和測試代碼需交由LDBC執行委員會審核通過。

測試的目標包括圖數據的數據加載速度,數據存儲規模,功能正確性和性能指標。本次測試,費馬科技用LDBC的數據生成工具(datagen)生成了SF30,SF100,SF300三個大小不同的數據集,分別代表大小為30G,100G和300G的社交網絡數據,充分反映數據庫在不同數據規模下的表現的穩定性。

下表列出了交互場景的測試結果,其中的吞吐率(OPS)的意思是每秒完成的操作次數。

表1. 不同數據規模SF30(30GB),SF100(100GB)和SF300(300GB)的測試結果

上表是交互場景(interactive)的測試結果,每項持續時間超過兩個小時,操作數達到數千萬,而TuGraph在保證100%的查詢及時率的前提下,吞吐率達到5000上下,實屬不易。這里的查詢及時率指的是每一個查詢結果均能在給定的延遲要求里返回,院高于標準要求的95%,展現了TuGraph穩定的運行效率。就吞吐率而言,TuGraph為當前紀錄的7.6倍,這在商業數據庫中非常難能可貴。

幫助銀行識別個人信貸詐騙團伙

TuGraph的主要貢獻者之一,費馬科技CTO朱曉偉是清華大學圖數據庫研究方向的博士。在朱曉偉看來,這是值得驕傲的成績。這表明費馬科技在數據庫發展的最新前沿——圖數據庫方面走在了世界前列,將國內自主研發的技術,推向了世界。

更重要的是,正是有這樣突出的性能表現,費馬圖數據庫產品和技術為客戶創造了真正的價值,幫助客戶解決了一些長期以來難以著手的問題。

陳亮是沅啟融安的CTO。沅啟融安是一家專注于從事風險控制領域的專業咨詢與技術服務公司,他們的主營業務是為大型銀行風險管理部提供深度服務。

他向中國軟件網介紹了一個用圖數據解決的金融風控場景——信用卡等銀行個人信貸團伙詐騙。

詐騙團伙會用非法渠道獲取的大量身份證向銀行提出信用卡申請。這些身份證所代表的人員信息銀行系統并不全部掌握,以致部分有潛在風險的申請會被銀行通過。詐騙者將通過的部分進行提現或消費,但不還款。一旦出現這種情況,該項消費大概率會成為銀行的壞賬。

為此,銀行的風險管理部門一直希望能有一項技術,在信用卡申請時,就能從申請時提交的相關信息中發現蛛絲馬跡,將這些具有詐騙意圖的人識別出來。

傳統基于關系型數據庫的分析方法一直沒有很好地解決這個問題。因為傳統數據分析方法涉及的數量太大,算法也比較復雜,因此分析所需要的時間太長,無法在信用卡申請的時限內完成分析。

為此,陳亮他們和費馬科技一起,為銀行提供了一種特別有效的解決方案——基于圖數據庫和圖計算平臺進行分析。

通過建立圖數據庫,并對圖數據庫進行相應的計算分析,可以對信用卡申請人的電話號碼、地址等信息進行關聯和聚類分析。根據這些相關性,銀行可以從中會發現一些具有團伙性質的蛛絲馬跡。

相比傳統的數據分析方法,他們的系統效率提升了60倍,從原來的需要10個時到現在只用10分鐘解決,可用性大大增強。

一個空間巨大的市場

業界普遍認為,對于圖數據庫和計算技術的研究,最早可追溯至20世紀四五十年代。但圖數據庫、圖計算逐漸進入人們視野,則是因2010年谷歌發布的一篇圖計算論文引起。隨著數字經濟的迅速發展,目前圖數據庫已進入臨近爆發的前夜。

在這個全媒體社交、萬物互聯的時代,具有很多的應用場景。例如,在金融領域,可用圖數據庫通過建立賬戶(客戶)的關系圖,根據其社會關系、交易情況,分析客戶的還款能力、還款意愿、抗風險能力等,提升金融行業小貸授信、信貸審核、貸后追蹤等風控能力,并根據資金交易圖譜實現反洗錢、反欺詐等系統。在社交領域,人與人在線上和線下的聯系天然形成了一張圖,匯集海量的關系數據后,能夠做社區發現、輿論追蹤、用戶推薦等應用;在電信領域,人與人的通信是一個非常強的聯系,通信的時間和頻率則代表了這種聯系的強弱。電信運營商在通信圖上進行拓展騷擾電話阻斷、經營分析等業務……

根據Gartner研究報告,2019~2022年,圖數據庫市場將會以每年100%的增長率增長;而在過去的2018年,圖數據庫市場大概是5億美元,到2022年保守估計至少80億美元。

圖中可知,從2013年1月起至2020年8月,圖數據庫的發展一直屬于急速上升的模式??傻?,越來越多的人開始關注圖數據庫。數據來源:https://db-engines.com/en/ranking_categories

當前,越來越多的應用場景需要在海量異構數據中提出復雜問題,使用現有的數據庫(比如關系型數據庫)實現相關分析是不切實際、甚至完全不可能的。而圖數據存儲可以跨越數據孤島、并有效地建模、探索和查詢數據,能非常方便地解決這類問題。因此,圖數據庫的需求將會越來越多,但是目前擁有相關專業技能人才缺乏的限制了其采用。

巨頭還未全心入局,一場還未真正打響的戰爭

看上去的誘人前景,吸引了很多廠商殺入到圖數據庫市場。尤其是近幾年,新興廠商開始增多。

中國軟件網調查發現,當前圖數據庫領域主要有兩類提供商:一類是開源軟件,一類是新興公司,還有一些巨頭推出的產品。

從當前的競爭態勢來看,目前處于剛起步的階段,還沒有形成穩定的競爭格局。

但從業界口碑來看,已初步顯露出三大梯隊的態勢。

處在第一梯隊的是Neo4j和費馬科技等新興公司。其中Neo4j是開源軟件,它當前應用最廣泛。費馬科技成立時間相對較晚,但技術上更先進。

第二梯隊的主要由JanusGraph等開源項目,以及Virtuoso等公司。這些公司往往都和圖數據庫領域知名的開源項目Titan相關。好多國內外有圖數據庫產品的公司,最早的代碼都是源自于Titan。

第三梯隊的主要是一些巨頭推出的產品,以及一些初創公司。例如,百度、騰訊云、阿里云、華為、AWS等都有相關產品。這些巨頭或基于開源、或收購,或自己研發推出了一些產品,但基本上都屬于探索期,現在還沒有真正大規模投入。

國內知名的數據庫廠商南大通用副總裁杜國旺在授受中國軟件網采訪時說,他非??春脠D數據庫市場的前景。他認為,無論是圖數據庫廠商,還是依托圖數據庫提供知識圖譜等增值服務的廠商,都大有發展前途,完全有可能產生獨角獸。

不過,也有業內人士對圖數據庫的前景不那么看好。例如,國內大數據領域的知名專家、柏睿數據創始人劉睿民就告訴中國軟件網,他不那么看好圖數據庫的市場潛力。他認為,圖數據庫的應用場景目前比較窄,有一定的市場空間,關系型數據庫仍然會占主導地位。

不過,記者發現,不管未來市場容量有多大,圖數據庫都引起了國產數據庫廠商的深厚興趣,并開始了大量的探索與實踐。

費馬科技在產品技術上的突破,讓我們看到了國產品牌在數據庫領域核心技術的希望。

費馬科技官網:https://fma-ai.cn/

作者:中國軟件網 曹開彬

編輯:費馬科技

申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

相關標簽
數據庫

相關文章

編輯推薦