從Excel、報表系統到傳統BI,企業數據分析工具進化的同時,背后需要支持的數據承載量也在以更快的速度一路攀升。
(各數據分析工具適合承載的數據量)
以一家連鎖零售企業為例,如果門店有2000家,在售SKU有5000個,一天單店單品庫存數據量就達到了1000萬,一周就可能破億。
為了能讓性能跟上企業數據發展的速度,確保用戶在億級、十億級數據集的基礎上還能做絲滑的拖拽式數據分析和動態查詢,同時又不會給IT人員帶來額外的數據管理與運維壓力。觀遠數據在2019開始研究基于海量數據計算查詢的加速組件,并于2020年3月正式推出“極速分析引擎”黑科技功能,真正做到十億級數據秒級響應。
“極速分析引擎”是嵌入在觀遠一站式智能數據分析平臺中的一套計算查詢加速組件,在集群模式下最快支持十億級以上數據秒級響應速度。適用于零售行業大數據量、大寬表、高并發的數據分析情況,比如海量庫存數據聚合分析與查詢、訂單分析、商品分析等場景。可以滿足業務人員持續的探索式自助分析、即席查詢、動態分析的需求,保持連貫的分析思路,打造沉浸式分析體驗,深挖數據價值,高效洞悉業務。
“極速分析引擎”到底有多快?我們在實驗室環境下做了一個性能測試。測試的機器為16核128G內存的單節點,未做加速組件的獨立部署(實際上加速組件可單獨部署,加速效果更明顯)。
Demo1:極速查詢演示視頻演示-https://v.qq.com/x/page/u09471ficps.html
以上案例中,我們模擬了某零售客戶基于訂單商品明細數據的任意時間區段銷量、銷售額、成本的聚合分析。
可以看到,左右兩張表都是基于同一張1億行的訂單明細表進行聚合分析。區別在于左邊的表是使用的是Guan-Index數據集,是利用Spark計算引擎來進行計算的。而右邊的表則是使用“高性能查詢表”,利用“極速分析引擎”來做加速查詢的。不難發現,在切換日期區間時,右側表格基本上能夠在2~3秒內返回計算結果,而左側表格則需要10秒才能返回,整體的性能提升達到3~5倍,真正做到億級數據秒級響應。
Demo2:一億行數據自由拖拽式分析-https://v.qq.com/x/page/a094711g02i.html
還是基于以上數據,我們再做一下自由拖拽式的數據分析進行測試。從Demo中可以看到,基于1億行訂單明細數據的自由拖拽分析,也可以做到秒級響應,絲滑體驗。
如此強大的功能要怎么使用?
當用戶導入千萬級以上Guan-Index數據集,或者通過Smart ETL生成同等體量的數據集后,想要使用“極速分析引擎”來進行查詢加速時,我們可以大致分三步進行操作。
1、配置數據集
我們可以進入到數據集詳情頁“高級選項”欄,將數據集配置為“高性能查詢表”。
2、設置分區字段
用戶需要設置分區字段——分區是為了數據在存儲時能合理地分片,以減少數據查詢時的數據掃描。一般建議使用日期字段來做分區,分區方式建議設置為“月”或者“日”。使用日期字段做分區,可以有效地控制分區數量,不至于把分區做得過粗或者過細。如果沒有日期字段,也可以謹慎選擇其他字段進行分析,這時需要控制好分區字段的枚舉數量,一定不要選擇類似訂單ID之類的流水號,或者數值類字段作為分區字段。
3、確認執行
配置完分區字段后,點擊“確認”即可以開始模式切換。數據集數據量大的時候,數據導入需要花費一定的時間,請耐心等候。內部測試,3億行*26列的數據集導入花費12min左右。數據集更新也會觸發數據重新導入,因此一般建議高性能查詢表更新頻率不超過一天一次。
以下就是一個配置了“高性能查詢表”的ETL輸出數據集,我們看到表面看起來它似乎與一般的ETL輸出數據集并無二異。但我們在使用它創建卡片時,卻是利用“極速查詢引擎”來查詢數據,能夠提供飛一般的體驗。
“極速分析引擎”適用于哪些場景?
目前,“高性能查詢表”適用于數據量大于等于1000萬行以上的數據集,可大大加速卡片端數據查詢的效率。并且特別適合海量數據下的OLAP查詢,適合在大寬表上做任意維度的數據聚合、切片(篩選),也可以做明細數據的查詢。這些查詢相比直接使用Spark作為計算引擎,一般都能提供3~5倍的性能提升,如果硬件資源寬裕,將加速組件獨立部署,將能獲得更為優越的極速體驗。
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!
2023年6月1日至4日,第三屆全國生物相分離和相變學術研討會暨中國生物物理學會生物大分子相分離與相變分會年會在上海成功舉辦,榮聯科技集團攜冷凍電鏡數據分析整體解決方案亮相活動,云生數據副總經理田鳳進行了精彩的報告分享。本次盛會由中國生物物理學會生物大分子相分離與相變分會主辦,中國科學院上海有機化學
如今,諸多企業開始進入數據應用階段,開始追求數據對業務的實質性提升。然而,一些企業雖然認識到了數據的價值,卻由于缺乏一套高效好用的數據分析工具,導致數據應用效果并不理想。在一些企業中,尤其是中小企業,由于缺乏預算,仍然在使用Excel等傳統工具進行數據分析和可視化展現,需要手動整合和處理數據,耗時耗
數據收集的操作行為受到越來越多的關注,也變得越來越復雜。網絡抓取以及自動獲取過程總體來說極大地改變了數據收集的性質,舊的挑戰得到解決,而新的問題也隨之浮現出來。
日前,2022世界數字農業大會舉行。大會以“種鑄強芯,數領未來”為主題,開設多場數字農業云端專題論壇,北京佳格天地科技有限公司受邀出席”農業農村大數據應用論壇“,同與會嘉賓分享了農業大數據的創新應用。
近日,中國互聯網協會副秘書長裴瑋,中國互聯網協會中互網來總經理宛嚴,中國互聯網協會中互數智總經理李曉昂一行到訪極光公司總部,現場參觀極光發展歷程、極光榮譽墻、極光價值觀文化墻等
把脈中國數據智能化
2023年,幾乎可以被定義為中國互聯網公司的“大模型元年”。ChatGPT的全球爆紅,徹底點燃國內的大模型賽道,曾經的“創業英雄”、如今的商業領袖們親自下場,接連發布生成式人工智能產品與大模型布局。大模型火了,沉寂許久的互聯網行業又有了新的“戰事”。同時,大模型的快速發展也改變了云市場的現狀,企業對
近日,數字化市場研究咨詢機構愛分析發布了《2022愛分析·數據智能廠商全景報告》,愛分析從技術研發能力、服務客戶數量、收入規模等維度對廠商進行了全面專業的評估
2022年11月18日,首個國家級大數據產業創新賽事——2022第一屆中國大數據大賽圓滿落幕。工業和信息化部信息技術發展司數字經濟推進處處長張建倫,中國電子技術標準化研究院副院長孫文龍出席頒獎典禮并致辭
2022年11月17日,在廈門市工業和信息化局的指導下,以“數據確權”為主題的2022數據資產(廈門)論壇在廈門成功舉辦。本次論壇以“數據確權”為主題,由廈門市互聯網域名應用服務產業協會和構信網(公信.中國)聯合主辦
近日,國內知名數字化市場研究咨詢機構愛分析正式發布《2022愛分析·信創廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業關注度、行業落地進展等因素,遴選出在信創市場中具備成熟解決方案和落地能力的廠商。
10月31日下午,由數博會執委會主辦、數據觀(北京)傳媒科技有限公司承辦、貴陽大數據交易所協辦的第四期數博思享會“實踐先行觀公共數據價值與應用”活動成功舉辦。
近日,由中國國際數字經濟博覽會組委會主辦,中國電子技術標準化研究院、河北省工業和信息化廳承辦的“第一屆中國大數據大賽”(簡稱大數據大賽)正式啟動。
廣州光點信息科技有限公司自主研發的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺。
廣州光點信息科技有限公司自主研發的數據中臺產品GI大數據中臺V2.0產品是國內率先推出符合新創標準的中臺產品,基于“大數據+AI”等技術全新打造,集數據采集、融合、治理、服務、管理為一體的旗艦平臺