<bdo id="vljxk"><rt id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt><rt id="vljxk"></rt><noframes id="vljxk"><rt id="vljxk"><delect id="vljxk"></delect></rt><noframes id="vljxk"><rt id="vljxk"></rt><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt>

  1. 創業頭條
  2. 前沿領域
  3. AI智能
  4. 正文

兩分鐘“熟讀”《國史大綱》,大模型的下一個爆點是“書童”?

 2024-08-26 10:58  來源:A5專欄  我來投稿 撤稿糾錯

  阿里云優惠券 先領券再下單

年初大模型行業上演“長文本”大戰時,我們就萌生過做一個“讀書助理”的想法。測試了市面上主流的大模型后,發現普遍存在兩個不足:

一種是可以處理的文本長度不夠,即使有些大模型將文本長度提升到了20萬字,像《紅樓夢》這樣近百萬字的名著,還是需要多次才能“讀”完。

另一種是語言理解和生成能力不足,經常出現“幻覺”。“長文本”的特點不僅僅是長,還涉及到復雜的邏輯和文本語義,需要更連貫、相關的響應。

直到前兩天,一位做AIGC的朋友向我們同步了一個新消息:“智譜AI開放平臺默默上線了為處理超長文本和記憶型任務設計的GLM-4-Long,支持1M上下文。”100萬上下文長度到底意味著什么呢?我們找來了另外兩個大模型,用120回版本的《紅樓夢》(大約有73萬個漢字)進行了簡單對比:

月之暗面128K的大模型,每次可以處理6.4萬個漢字,需要12次才能讀完;

Claude 200K的大模型,每次可以處理10萬個漢字,需要8次才能讀完;

GLM-4-Long實測可以處理150-200萬字,一次就能讀完一本《紅樓夢》。

不過,文本長度只是一個入門能力,能否扮演起“讀書助理”的角色,必須要確保能夠從大量文本中準確檢索信息,特別是當某些關鍵信息被置于文檔的深處時,以及出色的推理和內容生成能力。

于是我們對GLM-4-Long進行了深度測試。

01 兩分鐘“熟讀”錢穆先生的《國史大綱》

大約是5年前,我們購買了錢穆先生的《國史大綱》,商務印書館的繁體豎排版。因為是用大學教科書體例寫成,學術味兒比較濃,再加上錢穆先生精煉的文筆風格,至今都沒有完整讀完。

GLM-4-Long能否勝任“書童”的角色呢?

我們調用了GLM-4-Long的API接口,讀取了50多萬字的電子版《國史大綱》,然后針對性地問了三個問題:

第一個問題:請總結這篇文檔中每個部分的主要內容

原書目錄中只羅列了每個章節的標題,希望通過這個問題驗證大模型是否處理了文檔的全部信息,對內容的理解和總結生成能力。

從輸出的結果來看,不僅準確整理出了每個章節的核心內容,還按照現在比較主流的紀年方式,將全書內容拆分為上古文化、春秋戰國、秦漢、魏晉南北朝、隋唐五代、兩宋、元明、清代等8個部分,內容準確度超過99%,僅僅是“兩宋之部”在小標題上被列舉了兩次(可以通過模型微調進行優化)。

第二個問題:“秦漢國力與對外形勢”在文檔哪個部分?

這是一個迷惑性比較強的問題,因為第七章和第八章都講了相關背景,但錢穆先生放在了第十一章進行重點介紹。

GLM-4-Long并未掉進預設的“陷阱”,準確指出了問題所在的章節和標題。這也是長文本處理的一個典型痛點,在長達幾十萬字的內容中,作者可能在多個地方描述相似的幾件事,最為考驗大模型的語義理解和內容檢索能力,并非是對文本的機械處理,意味著需要更強的抽象和內容歸納能力。

第三個問題:北宋的建國和漢唐時期有什么不同?

搜索引擎上沒有直接相關的答案,但錢穆先生在書中給出了系統闡述,用于驗證GLM-4-Long能否理解書中的細節信息。

這次的答案再次讓我們驚艷,分別從建國方式、統治方式、對外政策、經濟、文化、社會、政治制度等角度綜述了錢穆先生的觀點。特別是在“對外政策”上,準確回答了“漢唐時期積極對外擴張,北宋采取保守的防御策略”,并且簡單提及了政策變化背后的原因,即五代十國時期戰爭頻繁,導致國力消耗嚴重。

相關的測試問題不再一一贅述,直接給出我們的答案:GLM-4-Long對文檔全局信息的處理、長文本理解和生成、多輪對話等能力均超出預期,整個體驗有一種和錢穆先生跨時空對話的“錯覺”。

另一個不應該被忽略的信息在于,一本50多萬字的書籍,GLM-4-Long僅用了兩分鐘左右的時間進行處理。如果想要用大模型處理一些沒有時間研讀的長文本,GLM-4-Long某種程度上可以說是最佳幫手。

02 用多個文檔訓練出一位“知識博主”

很多人在日常工作和生活中接觸的文檔,并非是動輒近百萬字的巨著,而是幾萬字、最多十幾萬字的文檔和資料。在這樣比較大眾化的需求下,像GLM-4-Long這樣1M長文本能力的大模型,有何特殊價值?

前面用《紅樓夢》做了對比,其實還有另一種對比方式:

月之暗面128K的大模型,每次可以處理6.4萬個漢字,相當于讀1本《活著》;

Claude 200K的大模型,每次可以處理10萬個漢字,相當于一次讀《活著》和《在細雨中吶喊》兩本書;

GLM-4-Long的1M上下文,可以一次讀余華老師的多本書,比如《活著》《在細雨中吶喊》《河邊的錯誤》《第七天》……

由此萌生的一個想法是:是不是可以讓大模型一次讀多本相關的專業書籍,快速訓練出一個專業的知識博主?

首先想到的一個場景就是飲食,生活中經常碰到吃什么可以減肥、6月齡寶寶能不能吃蛋黃、高血壓病人的飲食需要注意什么等問題,每次都需要搜索或者問AI,又擔心內容是不是準確。

我們讓GLM-4-Long一次性讀取了《中國居民膳食指南》《中國食物成分表》《中國飲食文化》《中國居民膳食營養素參考攝入量》等多個文檔,然后用日常生活中的常見問題進行了針對性提問:

8月齡兒童日常飲食應該注意什么?

可以看到,GLM-4-Long輸出的答案非常全面,除了要補充蛋白質、維生素和礦物質,還給出了一些貼心的建議:食物應該細膩易消化,避免大塊或硬的食物,以防噎食;建議先引入蔬菜泥,然后是水果泥,接著是強化鐵的米粉或米糊;如果家族中有過敏史,應避免引入可能導致過敏的食物……

50歲的高血壓病人有什么飲食建議?

答案依然比較全面,包括應將食鹽攝入量控制在每天6克以下、每天攝入300-500克新鮮蔬菜和200-350克新鮮水果、每日攝入25-30克膳食纖維、避免過多攝入精制糖和白面食、建議通過食物攝入足夠的鉀和鈣、避免過多攝入蛋白質、限制飲酒等等,并提供了具體的食物建議。

以上只是我們簡單嘗試的一個場景,可以聯想到的應用場景還有很多。

比如一次性通讀余華老師的所有小說,然后“變身”余華老師進行對話;一次性讀多篇相關的論文,幫助提升論文閱讀的效率;一次性讀取上百份簡歷,然后根據需求篩選出最合適的候選人;以及找到一家企業多個季度的財報進行橫向對比,從更宏大、信息更豐富的視角進行財報分析......

我們列舉的“想法”僅僅是拋磚引玉,相信智譜AI在大模型能力上打破天花板后,會有越來越多開發者參與其中,挖掘藏在應用層的機會,帶來各種有趣、有生產力的體驗。

03 “卷”長文本過渡到“卷”綜合能力

有別于年初單純卷文本長度的比拼,智譜AI在GLM-4-Long的宣傳和營銷上不可謂不低調,卻折射出了大模型市場的一個隱性共識:不再為了傳播某個能力硬凹需求,而是開始卷大模型的綜合能力。

個中原因并不難解釋。

長文本在本質上是一種智力能力。如果將大模型比作是一臺“電腦”的話,“更長的上下文”可以看作是更大的內存,能夠提高多任務處理能力、提升運行大型軟件的流暢度、帶來更好的游戲體驗等等。內存的大小,可能在某種程度上影響消費者的購買決策,卻不是優先級最高的購買因素。

同樣的道理,僅僅是在文本長度上領先,并不足以讓大模型吸引所有的注意力,不會是一條穩定的護城河。

與之相對應的,大模型的“長文本熱”就像是曇花一現,開發者們沒有趨之若鶩,資本市場不斷傳出批判的聲音:“感覺是各家公司在為搶入頭部陣營做成績,本質上還是為了秀肌肉,衡量長文本的價值,要等到更明確的落地場景和對應的商業模式出現,否則市場再熱鬧也是沒有用的。”

時間過去半年后,GLM-4-Long讓外界看到了大模型新的演變方向:除了記住多長的上下文,還在比拼語言理解和生成能力、長文本推理和QA能力,不再是做長木桶的一塊板,而是把把所有木板做長。

比起我們“淺嘗輒止”的測試,對大模型行業新方向感到興奮的,恰恰是那群做AIGC的創業者。正如那位朋友所說的:“大模型可以滿足100萬字的上下文,并且可以很好地、準確地執行復雜指令,預示著巨大的想象空間。希望智譜AI開放平臺可以早日推出GLM-4-Long的正式版,我們已經有了多個智能體相關的想法。”

自從ChatGPT走紅后,整個大模型行業風譎云詭。然而一個看起來有些畸形的現象是:資本大多將錢投個了大模型企業,做應用創新的創業者鮮有機會,即便不少人都在呼吁創業者應該卷應用,而非卷模型。

回頭再來看這樣的現象,需要批判的不是資本的“勢力”,而是開發者們的無奈。直接的例子就是長文本,半年前的火爆只是技術上的,由于存在能力上的短板,未能在應用層延續熱度和爆點。借著上面的比喻,一臺電腦的內存很大,可CPU、GPU、屏幕等依然是短板,開發者很難做出體驗優秀的應用。

當大模型的競爭走向綜合能力的較量,100萬長文本賦予了開發者更大的創造空間,同時在生成、推理、QA等能力上不再被制約,注定會吸引越來越多的開發者參與進來,進一步將想象力轉化為生產力,創造出一個又一個“出圈”的現象級應用,加速大模型在應用賽道上的繁榮。

04 結語

“2024年是AGI落地元年“。

這樣的預言正在被進一步驗證。不僅僅是大模型綜合能力的進階,還在于技術和應用在方向上的統一:逐漸從博眼球式的拉新,轉向“脫虛向實”, 不斷回歸用戶體驗,沉淀出解決實際問題的能力。

申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

相關標簽
大模型

相關文章

  • 除了燒錢,互聯網留給大模型揮霍的“家底”不多了

    互聯網或許從未停止創新,只是對于創新的認知下降了。

    標簽:
    大模型
  • 誰該成為大模型成長的“養料”?

    在科技進步的歷史征程里,我們享受技術成果之前,似乎總要付出一些“隱形”成本。

    標簽:
    大模型
  • 百川智能,摘下“大模型皇冠上的明珠”?

    隨著AI產業化和產業AI化成為業界共識,大模型的“新賽季”來了。2024年是國產大模型全面商業化的元年,各地人工智能產業發展的政策密集出臺。同時,在2024世界人工智能大會(WAIC2024)上,各大AI廠商紛紛表示要讓大模型落地應用場景。不過,對于大模型商業化的路線,科技巨頭和大模型初創公司之間存

    標簽:
    大模型
  • 最后一公里不解決,大模型開閉源都一文不值

    對所有大模型而言,其真正考驗如同科大訊飛創始人劉慶峰所說,在最后一公里的應用和商業化落地上。作者|Cindy編輯|楊銘恐怕誰也不會想到,百模大戰進入商業化下半場,圍繞大模型大規模、曠日持久的戰爭,竟是開源和閉源路線的交鋒。最近,在2024世界人工智能大會(WAIC)上,劉慶峰、李彥宏、王堅、朱嘯虎、

    標簽:
    大模型
  • 對于“百模大戰”,幾乎所有大佬的口風都180 °大轉變了?

    文|智能相對論作者|陳泊丞在2024世界人工智能大會暨人工智能全球治理高級別會議產業發展主論壇上,百度創始人、董事長兼首席執行官李彥宏談了些對于AI大模型的看法,語驚四座。他先是指出,“百模大戰造成了社會資源的巨大浪費,尤其是算力的浪費。但同時也使得我們追趕世界上最先進基礎模型的能力得到了建立?!倍?/p>

    標簽:
    大模型
  • 2025年10個頂級GPU云平臺:Serverless+RL開啟AI普惠時代

    近期,“AI新云”(NeoCloud)概念在科技圈和投資圈引發熱潮。今年3月,被業內稱作“英偉達親兒子”的AI基礎設施企業CoreWeave上市。這家依托英偉達GPU資源沖擊新云市場的初創公司,上市不到3個月市值飆升359%,達881億美元。CoreWeave的“身價暴漲”吸引了無數視線。對此,不少

    標簽:
    ai智能
  • 阿里巴巴梭哈AI

    2024年往前數三年,我們稱之為阿里巴巴失去的三年。

  • 華為盤古大模型5.5發布:深度思考模型將上線

    一場人工智能領域的革新風暴正從華為開發者大會現場席卷全球產業界。2025年6月20日,在東莞舉行的華為開發者大會HDC2025上,華為常務董事、華為云計算CEO張平安揭開了盤古大模型5.5的神秘面紗。這一全新版本在自然語言處理、計算機視覺、多模態、預測和科學計算五大基礎模型上實現全面突破,標志著中國

  • OpenAI 推出開源客戶服務代理框架 支持商業或實驗用途

    一行代碼未寫,企業已獲完整客服系統——這將是AI代理普及的新起點?!敖裉鞓酥局鳤I代理技術從實驗室走向產業的轉折點?!監penAI產品負責人OlivierGodement在項目發布聲明中如此評價。就在今日,這家AI巨頭通過HuggingFace平臺開源了一套完整的客戶服務代理框架,采用寬松的MIT許

    標簽:
    ai技術
  • 夸克App上線“夸克老師”:AI實現個性化輔導,精準攻克學習難題

    6月17日,阿里巴巴旗下智能信息平臺夸克App正式推出全新學習產品“夸克老師”——一款集講題、批作業、出題、找試卷于一體的AI家教。該功能依托通義千問大模型,通過指令微調、強化學習等前沿技術,首次實現“因材施教”的個性化輔導,標志著AI在教育領域的應用邁入新階段。技術突破:AI模擬真人教學,推理能力

    標簽:
    夸克
  • 字節旗下AI工具豆包電腦版與網頁版上線“AI播客”功能,用戶可一鍵生成雙人對話播客

    2025年6月17日,字節跳動旗下智能助手豆包正式在電腦版及網頁端全量上線“AI播客”功能,用戶只需上傳PDF文檔或網頁鏈接,即可一鍵生成由兩位AI主播演繹的對話式播客節目。這一創新功能憑借高度擬人化的語音效果和秒級轉化效率,迅速引發內容創作者、學生群體及職場人士的關注。技術突破:真人級語音交互,秒

    標簽:
    豆包ai
  • DeepSeek越強,Kimi越慌?

    AI的生死競賽

    標簽:
    deepseek
  • 全球AI巨頭正在賭:誰搞定MCP,誰就是未來老大

    我不是危言聳聽,現在全球的AI巨頭都在做MCP,毫不夸張的說:誰能把MCP做起來,誰就擁有AI生態控制權,誰就是AI圈的老大。你們有沒有發現,MCP在2025年初開始特別火爆,互聯網技術大廠都在強推MCP。(1)阿里云百煉搞了個MCP平臺,提供50+預置MCP服務。不過大都只面向阿里系產品。(2)騰

    標簽:
    ai智能
  • 對話李軍:人工智能是“第五范式革命”

    2025國際人工智能程序設計精英挑戰賽(IAEPC)在香港中文大學成功舉辦。作為主辦方之一,歐美同學基金會理事長李軍接受了大賽主持人艾誠采訪。在采訪中,李軍認為IAEPC不僅是一場“冠軍中的冠軍”對決,更是一次全球AI人才的線下交流盛會。大賽“史無前例”的吸引了全球青年科技精英匯聚香港,更加推動和普

編輯推薦