當前構建大數據應用的難點是什么?對于這個問題,相信很多資深從業者都會回答:海量數據的高效處理與運維。在大數據時代中,它是數據庫行業面臨的基礎性問題,如何將它解決?既是挑戰,也是機遇。
在無數數據庫行業的老將新兵中,我們注意到一批力圖解決大數據語境下,數據庫使用和運維難題的“引路人”。今天,InfoQ的專訪對象---姚延棟,正是這批大數據“引路人”中的一個。
作為Greenplum的第三號員工,在過去十年間,姚延棟曾帶領團隊將Greenplum打造成為世界排名第三的分析型數據庫,創下由華人主導的數據庫產品最好排名。而在數據庫領域從業數十年后,他又選擇開啟自己的創業之旅,與兩位合伙人共同創辦了一家名為四維縱橫的數據庫公司。那么,他為什么在這個時間點選擇創業?當傳統行業的數字化轉型成為大勢所趨,數據庫領域又發生了什么新故事?我們帶著這些問題,同四維縱橫創始人姚延棟一起聊聊數據庫的過去與未來,挑戰與機遇。
行業中存在一種思維慣性
“創業是為了打破行業的慣性。”
“如果把數據庫領域比作一個大森林,那么我們就是對地形非常熟悉的原住民。當有人想穿過大森林,卻不知該走哪條路的時候,我們就充當“引路人”來幫助他們穿過森林。倘若沒有我們,那他們可能會按照自己的慣性去走。”
姚延棟在Greenplum效力的十年期間,最初主要從外圍模塊入手打造產品,后來逐步向核心邁進,打磨內核模塊,直到團隊駕馭整個數據庫內核,他坦言這與農村包圍城市的過程十分類似。在此期間,他發現行業中存在一種慣性思維,而創業的目的就是為了打破這種慣性。
那么,這個慣性到底指的是什么?
以時序場景為例,現在業內普遍流行使用專用的時序數據庫,典型的代表產品有InfluxDB、OpenTSDB 等,而與此同時,幾乎所有場景都需要關系型數據庫。這樣一來,大家就不得不引入多個數據庫產品,使得技術棧以及監控運維變得十分復雜。
雖然專用時序數據庫在一定程度上滿足了業務對于時序處理的需求,但也存在諸多問題,其中性能低、擴展性差的問題尤為顯著。過去時序數據庫大多是為數據中心的服務器監控、埋點數據處理等簡單場景設計的,所以,其無法為物聯網等場景下的大量數據源和大量指標提供支持。除此之外,開發效率低、需要MPP數據庫或者大數據產品配合以及數據孤島化等方面,都是擺在從業者面前的難題。
應運而生的超融合時序數據庫
“我一直把數據庫的技術演進和生物界的進化類比去看。”
從上世紀60年代誕生起,數據庫技術就一直在不斷地演進、迭代,其背后主要是兩股力量在推動:一股力量是性能問題,另一股力量是效率問題。
上世紀七八十年代,關系型數據庫開始獨步天下,從業者主要是基于關系型數據庫來高效存儲和處理應用開發中用到的數據;到了2000年左右,數據規模大幅增長,而大數據處理技術尚未展露雛形,整個社會對于浩瀚信息的處理仍處于比較迷茫的階段,以至于技術的迭代速度趕不上數據增長的速度。自此,大數據處理的性能問題開始顯現,數據庫領域隨之出現了時序數據庫、KV數據庫、文檔數據庫等專用數據庫,以期解決性能從0到1的問題。但由于應用要與多個數據庫溝通,從多個數據庫讀取數據到應用程序內存中再進行關聯、聚集以及合并等計算,很多數據處理邏輯被迫只能放在應用中,開發和運維效率就不可避免地大打折扣。
如此一來,為了解決效率問題,行業中又出現了Presto等類型的產品,即在專用的數據庫上封裝一個查詢引擎,試圖把數據處理邏輯從應用處理邏輯中剝離出來。這種方式雖然在一定程度上解決了開發效率問題,但性能仍是短板,且并未從根本上解決技術棧復雜的問題。
我們可以看到,在進化了近50年后,現有的數據庫技術已經不能滿足從業者的需求 --- 他們需要更加簡單易用、省心省力的數據庫。在這樣的背景下,為了能給用戶提供簡單易用的接口,真正實現數據平民化,姚延棟和他的團隊將關系數據庫、時序數據庫和分析數據庫融合在同一個數據庫產品中,打造了全球唯一一款PB級超融合時序數據庫--MatrixDB。
超融合時序數據庫解決了什么問題?
目前,超融合時序數據庫主要應用在兩大場景:第一,時序、時空場景,通常是物聯網、工業互聯網、車聯網和智慧城市等領域;第二,實時數據分析場景。
談到時序、時空場景,姚延棟分享了一個海量設備、大量存儲的典型物聯網場景。“以一家做光纖和5G通訊設備的國際制造商為例,這家制造商大概有1000萬設備,每臺設備每次都會采集300個指標數據,每次共計需要采集30億指標。”基于這種情況下,MatrixDB實現了超大規模數據的實時加載特性,在保證低延遲和高并發加載的同時,也減輕了系統資源消耗,充分將快速采集、高效存儲 的特性顯示了出來,使得海量數據的存儲問題、秒級采集的頻率要求都能得到完美的解決。
在實時分析 的特性方面,姚延棟又給出了另一個案例:在一個實時數據分析的業務中,MatrixDB可以實現對IT運營域和OT生產域的數據收集,通過ETL/CDC和物聯網協議插入數據以后,便能將兩張網的數據整合在一起,使得公司的全部數據一目了然地展現。當企業再基于這些數據進行分析時,就能得到更加精準且全面的結論。
我們還注意到了MatrixDB的另一個重要特性——模塊化和可插拔 。專用時序數據庫通常包含存儲器和簡單的執行器,沒有優化器和并發控制等關系數據庫經典組件。從本質上來看,它是把存儲器“做成”了數據庫,以此來解決一個特定的問題。而超融合時序數據庫則是把存儲器“做進”數據庫,通過把各個核心功能做到模塊化、可插拔,在一個關系數據庫內部同時實現多種存儲引擎,以及跨存儲表關聯和ACID。 比如有200張表,其中190張是關系型數據,這部分可以使用關系引擎存儲;剩余10張是時序數據,就可以使用時序引擎存儲,且它們可以相互關聯。
與傳統的關系數據庫+專用時序數據庫相結合的架構相比,通過支持多種存儲引擎,超融合時序數據庫可以讓性能快10-100倍,同時大幅降低成本,提升開發運維效率。
令人驚喜的是,除了快速采集、高效存儲、實時分析以及模塊化和可插拔特性以外,我們注意到MatrixDB作為一款數據庫產品,還提供了機器學習的能力。 隨著人工智能技術的飛速發展,In-Database Machine Learning成為一個值得關注的方向,將機器學習的算法內置到數據庫將逐漸成為主流。一方面,借助分布式數據庫的并行計算能力,可以使計算速度超越單機;另一方面,由于單機上的內存有限,在數據量很大的情況下,只能抽樣進行訓練,模型精度就會變差。通過In-Database Machine Learning模式,就能實現在全量數據上訓練,模型精度也將得到進一步提高。
“過去從業者需要自己寫程序才能實現機器學習。”這是姚延棟提到的一個現象,并表示這其中的技術門檻比較高。“目前,MatrixDB數據庫通過直接提供SQL接口,大大降低了機器學習的門檻,能夠在一定程度上緩解人才稀缺的問題”。
下一步怎么走?
“未來我們會繼續在性能和效率兩個維度持續發力,并沿著更智能的方向去發展。” 落實到具體的業務層面,姚延棟表示會在提升易用性、構建生態兩個方面重點發力。
眾所周知,數據庫運維對于從業者來說是一個很大的挑戰,也因此衍生出了數據庫運維這個行業。尤其在分布式數據庫環境中,節點數量多以及需求多樣化的特點,使得運維的難度更是大幅增加。姚延棟表示:“今后,我們將繼續致力于降低數據庫的使用門檻,使數據庫有能力提供自動性能調優、健康檢查等功能。”
在構建生態的方面,他也給出了更高層面的考慮。數據庫是基礎軟件,沒有人能夠只使用數據庫就解決業務問題,必須與很多周邊產品搭配,才能發揮真正的價值。因此,對于數據庫產品來說,生態的重要性不言而喻。“如果沒有生態,我們相當于把復雜度問題扔給了用戶,聯合行業內上下游共建生態是我們接下來的方向”。
"數據庫能定義未來記憶。" 由于MatrixDB數據庫更多應用于物聯網、車聯網、工業互聯網和智慧生活等場景,姚延棟也與InfoQ談到了他對于萬物互聯時代中數據庫的理解,萬物互聯的目的是為了更智能化,而智能的前提是基于記憶,但事物本身是沒有記憶能力的,如風力發電機、智能手環等等。“未來我們希望通過超融合時序數據庫,賦予一些沒有記憶能力的設備以記憶,為智能衍生出更多的可能性。”
萬物互聯時代的智能化到底會是什么樣?這個問題還未有定論,仍然需要等待技術隨著時代不斷演進,不斷進化才能得到答案。但可以肯定的是,在這之前先建立起事物的記憶能力,能夠為不遠的智能化時代奠定基礎。
談及數據庫和四維縱橫的未來,姚延棟希望能夠讓數據處理簡單到像用電、用氣、用水一樣,把MatrixDB數據庫打造成一個真正的一站式數據處理平臺,讓從業者在進行數據處理時,不再需要關心底層的數據存儲以及計算的復雜性。這是四維縱橫正在探索的方向,也是行業共同努力的終極目標。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!
隨著數字中國戰略的步步落實,大數據已經成為錨定戰略定位、搶得市場先機的重要基礎元素。為彰顯行業發展現狀,遴選、推薦優秀企業,長城戰略咨詢近日在2023中國國際大數據產業博覽會期間,重磅發布《中國大數據獨角獸企業榜單》,根據獨角獸企業國家推薦性標準,篩選出259家2022年中國大數據(潛在)獨角獸企業
2023年6月15日至18日,2023北京健康醫療大數據論壇、醫促會華夏健康數據與數字醫學高峰論壇、第三屆中華預防醫學會腎臟病預防與控制專業委員會學術會議將同期于北京舉行。論壇以“學術引領數智健康”為主題,著眼國家戰略需求,聚焦前沿科技在健康醫療領域的發展與實踐,薈萃全球頂尖學術觀點,促進多方跨界融
中國經濟周刊-經濟網訊(記者宋杰)4月27日,第六屆數字中國建設峰會在福州開幕,同期舉行的還有數字中國建設成果展覽會,本屆峰會以“加快數字中國建設,推進中國式現代化”為主題,集中展示數字中國建設最新成果和優秀實踐案例,分享發展經驗。其中,作為央企中國電科集團旗下的數據庫國家隊,人大金倉今年展出面積從
近日,北京市科學技術委員會、中關村科技園區管理委員會公示了北京市2023年第2批科技型中小企業名單,谷器數據借助優秀的科技自主創新能力成功入選。此次評價指標圍繞科研人員、研發投入、科技成果等三個維度,成功入選科技型中小企業是對谷器數據專業化發展、自主創新能力、產品技術實力的激勵與肯定??萍夹椭行∑髽I
評審寄語面向車間現場生產制造過程的數字化管理,谷器數據SupplyX·MES通過推動更有效的工廠運行和現場效率,提供從接收生產計劃到制成最終產品全過程的生產活動實現優化的信息,成為新型工業化的標桿力量!近日,由中國科學院《互聯網周刊》、中國社會科學院信息化研究中心等機構聯合主辦的“2023(第八屆)
把脈中國數據智能化
2023年,幾乎可以被定義為中國互聯網公司的“大模型元年”。ChatGPT的全球爆紅,徹底點燃國內的大模型賽道,曾經的“創業英雄”、如今的商業領袖們親自下場,接連發布生成式人工智能產品與大模型布局。大模型火了,沉寂許久的互聯網行業又有了新的“戰事”。同時,大模型的快速發展也改變了云市場的現狀,企業對
近日,數字化市場研究咨詢機構愛分析發布了《2022愛分析·數據智能廠商全景報告》,愛分析從技術研發能力、服務客戶數量、收入規模等維度對廠商進行了全面專業的評估
2022年11月18日,首個國家級大數據產業創新賽事——2022第一屆中國大數據大賽圓滿落幕。工業和信息化部信息技術發展司數字經濟推進處處長張建倫,中國電子技術標準化研究院副院長孫文龍出席頒獎典禮并致辭
2022年11月17日,在廈門市工業和信息化局的指導下,以“數據確權”為主題的2022數據資產(廈門)論壇在廈門成功舉辦。本次論壇以“數據確權”為主題,由廈門市互聯網域名應用服務產業協會和構信網(公信.中國)聯合主辦
近日,國內知名數字化市場研究咨詢機構愛分析正式發布《2022愛分析·信創廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業關注度、行業落地進展等因素,遴選出在信創市場中具備成熟解決方案和落地能力的廠商。
10月31日下午,由數博會執委會主辦、數據觀(北京)傳媒科技有限公司承辦、貴陽大數據交易所協辦的第四期數博思享會“實踐先行觀公共數據價值與應用”活動成功舉辦。
近日,由中國國際數字經濟博覽會組委會主辦,中國電子技術標準化研究院、河北省工業和信息化廳承辦的“第一屆中國大數據大賽”(簡稱大數據大賽)正式啟動。
廣州光點信息科技有限公司自主研發的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺。
廣州光點信息科技有限公司自主研發的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺