AI Agent涌向移動終端,手機智能體勢不可擋
還沒搞清楚什么是AI Agent,手機Agent就已經橫空出世
AIGC為何涌向移動端?背后有哪些邏輯?什么是手機智能體?一文看明白
科技大廠、手機廠商、企服領域都在發力,手機智能體成AI Agent新趨勢
AI Agent迎來移動端大爆發,手機智能體將成企業AIGC新標配
AI Agent移動應用大升級,手機智能體開啟跨端跨應用業務連接新場景
文/王吉偉
春節期間OpenAI推出的AI視頻模型Sora火出天際,到處都是文生視頻模型如何厲害如何改變真實世界的信息,以至于OpenAI在AI Agent方面的最新動向都被掩蓋了。
春節前的2月8日,科技媒體The Information報道OpenAI正開發兩款革命性的Agent軟件,其中一款能夠有效接管客戶的設備來自動執行復雜的任務。
據說,這個Agent能夠自動執行點擊、光標移動、文本輸入等操作,與人類操作軟件無異。例如,把文檔中的數據傳輸到電子表格中進行分析,或者自動填寫費用報告并將其輸入會計軟件,或者根據一定的預算制定行程或預訂機票。
這個能夠直接操縱個人電腦自動完成各種任務的智能體,現在被更多媒體稱作AI Agent 2.0。
這些報道沒有具體說明這款Agent所接管的設備是PC還是手機,不過ChatGPT有移動端,能夠在手機或者平板上調用這個Agent是遲早的事。
想要在移動端構建AI Agent的大語言模型(LLM,Large Language Models)廠商,遠不止OpenAI這一家。
去年12月,騰訊與德州大學達拉斯分校合作推出了一個名為AppAgent的項目。該項目可以通過自主學習和模仿人類的點擊和滑動手勢,在手機上執行各種任務。
項目地址:
https://github.com/mnotgod96/AppAgent
論文地址:
https://arxiv.org/abs/2312.13771
包括在社交媒體上發帖、幫助用戶撰寫和發送郵件、使用地圖、在線購物,甚至進行復雜的圖像編輯。AppAgent在50個任務上進行了廣泛測試,涵蓋了10種不同的應用程序。
2月初,阿里巴巴與北京交通大學聯合推出了一款全新的手機操作智能體框架Mobile-Agent。該框架的核心優勢在于其純視覺解決方案。傳統的手機操作方式往往需要依賴XML等標記語言以及系統元數據,而Mobile-Agent則完全摒棄了這些需求。
項目地址:
https://github.com/X-PLUG/MobileAgent
論文地址:
https://arxiv.org/abs/2401.16158v1
這意味著,用戶無需進行復雜的設置或修改,只需通過直觀的視覺指示即可完成操作。
除了科技大廠,LLM創業團隊也推出了相應的Agent項目。比如在去年12月,清華&智譜AI團隊推出的CogAgent-Chat。CogAgent是一個基于180億參數規模的視覺語言模型(VLM)的圖形用戶界面(GUI)智能體,專注于GUI圖形交互界面的理解和導航。
CogAgent使用屏幕截圖作為輸入,在PC和Android GUI導航任務上超越了基于語言模型的方法,如Mind2Web和AITW,引領了GUI理解領域的最新技術發展。
論文:
https://arxiv.org/abs/2312.08914
代碼:
https://github.com/THUDM/CogVLM
Demo:http://36.103.203.44:7861/
如今的大語言模型在具體應用方面都是多端通用,MAS和SaaS模式使得LLM廠商推出的AI Agent構建平臺及個體能夠應用于手機端也是必然。
AI智能體涌向移動端,已經成為AIGC行業發展的必然趨勢。
(注:回復 手機Agent 獲取本文提到的所有研報資源。)
AI Agent趨勢:涌向移動端
系統廠商與終端廠商的步子,甚至比大模型廠商邁得還要大。畢竟他們更貼近用戶,了解市場需要什么,也知道自己在哪里突破。
這些廠商對于AI Agent的探索比我們預想得要早很多,且已經拿出初步成果。
也是在春節前夕,微軟推出了名為UFO的Windows Agent。這是一款用于構建用戶界面(UI)交互智能體的 Agent 框架,能夠快速理解和執行用戶的自然語言請求。
項目地址:
https://github.com/microsoft/UFO
技術報告:
https://arxiv.org/abs/2402.07939
UFO可以在Windows內自主回答用戶查詢,可在單個或者跨多個App中無縫導航和操作來滿足Windows 操作系統上的用戶請求??梢愿又悄艿乩斫庥脩舻囊鈭D,不用人工干預,自動執行相應的操作。
如果你想從一份Word文檔中提取文本、對照片應用程序中的圖像進行觀察、以及總結 PowerPoint中的內容,利用所有這些信息撰寫一封深度的電子郵件內容并完全自主發送時,你只需要借助一個UFO框架就可以完成。
這意味著,以前需要大量手動工作的跨應用程序工作流程,現在可以直接簡化為針對 UFO 的簡單自然語言指令。
UFO,或許會成為下一代Windows系統的核心。以后搭載windows系統的筆記本電腦等移動終端,將會因UFO而開啟全新用戶體驗。
重點在于,其他系統也會效仿Windows,AI Agent將會成為各個系統的標配。
把LLM以及AI Agent裝入PC或者移動終端,硬件廠商將其稱作AI PC或者AI 手機。
自從LLM能夠在端側部署之后,硬件廠商們就開啟了狂飆模式,而LLM的落地應用主要途徑的AI Agent模式也首先進入其法眼。
在2024 CES上,聯想首次提出“智能終端AI OS”,即在AI技術驅動下,智能終端將內嵌個人Agent(智能體)、個人大模型、本地知識庫、應用接口,形成下一代AI OS。并認為,AI技術的突破將在PC、手機、AIoT等所有智能終端產品領域掀起第三次技術革命浪潮,重塑終端體驗及產業生態。
據悉,聯想個人Agent或將在4月份與用戶見面。
面對新生代AI硬件設備AI pin和Rabbit R1 所展現的“準AI Agent”屬性,手機廠商們早已經坐不住,強勢展開了對AI智能體的角逐。
1月份,小米、華為、vivo、理想等幾家公司聯合清華大學智能產業研究院(AIR)共同發布了一篇個人LLM智能體綜述論文(也是一個標準),該論文梳理了個人LLM智能體所需的能力、效率和安全問題,收集并整理了領域專家的見解,還開創性地提出了個人LLM智能體的5級(L1—L5)智能水平分級法。
論文地址:
https://arxiv.org/abs/2401.05459
文獻庫:
https://github.com/MobileLLM/Personal_LLM_Agents_Survey
今后各家的智能體處于什么水平,參照這個標準便會一目了然,也為移動終端的Agent構建提供了更多參考方向。當然,這個標準的推出也意味著廠商們對于移動終端智能體的積極探索與更大的市場需求。
OPPO等推出的AI手機,用戶實測后的感觸是越來越像Agent,至少已經能夠達到上述標準的L2級。
OPPO與IDC在聯合發布的《AI手機白皮書》中,還給AI手機下了一個明確的定義。
OPPO還公布1+N智能體生態戰略,核心包括OPPO AI超級智能體和AI Pro智能體開發平臺。
其中1指的是AI手機的智能OS,扮演AI時代操作系統的角色,具備傳統智能手機不支持的自學習感知能力、長期記憶能力和工具調用能力。它可以與用戶專屬的智能體、第三方智能體的交互和信息統籌。N指的就是前面所述的用戶智能體和第三方智能體等構成的全新智能體生態。
理想汽車參與這份標準的研究,則映射的是AI Agent適配人車交互場景的廣闊市場。國盛證券在一篇報告中指出,AI Agent面向復雜任務處理,充分適合人車交互場景,是數字人的核心演進方向。
座艙智能化時代,用戶在駕乘中會有各種個性化需求,數字人被賦予更多的施展能力的空間,其使命是通過AI Agent實現AGI向汽車座艙滲透,實現三屏互動(手機屏、車載屏和家用屏)。
而Meta與雷朋合作推出的第二代智能眼鏡,接入多模態AI后,也開始向AI Agent”靠攏。不必再為不同任務選用不同應用程序,只需用日常用語告訴設備需求,眼鏡就能基于軟件獲取的信息,為用戶作出量身回應。
企服的爆發:Agent漸成標配
科技巨頭公司及企業服務廠商,也早在AI Agent移動終端的應用方面下足了功夫。
字節跳動在2月初正式推出了「Coze 扣子」AI Bot 開發平臺。任何用戶都可以快速、低門檻地搭建自己的 Chatbot,且平臺支持用戶將其一鍵發布到飛書、微信公眾號、豆包等渠道。
除了可以創建自己的Chatbot,Coze官方還提供了Bots 商店和插件。插件的使用,可以讓用戶構建的機器人更加強大。
通過Coze構建的機器人,與OpenAI的GPTs類似,主要用于交互并能夠實現一定的業務流程操作,可以算是初級智能體。
其更早推出的豆包,也是一個構建智能體的平臺。
釘釘在1月發布的釘釘7.5版本,也是全量上線AI Agent產品“AI助理”。釘釘平臺上的Agent,能夠通過釘釘內的企業協同場景,迅速將AI Agent用起來,積累數據。這個助理擁有真正的執行能力,并非停留在和用戶的交互層面,可以進行信息摘要、寫工作總結、寫文檔等通用的辦公工作。
用友發布的YonGPT,也能通過上下文記憶、知識/庫表索引、Prompt工程、Agent執行、通用工具集等擴充大模型的存儲記憶、適配應用和調度執行能力,再結合財稅、人力、供應鏈、研發等領域的知識和最佳實踐擴充大模型專業能力,從而形成體系化的企業服務大模型。
以上這些平臺的Agent,憑借SaaS屬性,都可以在手機端絲滑使用。
除了以上公司,一些創業公司以及專注超自動化的廠商,也陸續推出了能夠應用于移動端的Agent產品。
比如實在智能也推出了手機Agent智能體,只需一句話直接傳達自己的意圖,就可以幫你操作所有電腦、手機的軟件完成各類工作和生活的目標任務,通過自主學習和模仿人類的點擊和滑動手勢,可以在手機上操作App執行各種任務。
背后的邏輯:發展趨勢使然
在很多人還沒有弄懂什么是AI Agent的時候,大部分人以為Agent更適合在PC端執行各種任務的時候,廠商們已經在悄然布局AI Agent在移動端的應用了。
王吉偉頻道認為,廠商們之所以急于將AI Agent拓展至移動端,大概有以下幾點原因:
用戶需求:隨著技術的發展,用戶對智能手機和設備的期望越來越高,他們希望設備不僅僅是工具,還能成為日常生活的助手。Agent能夠理解用戶的需要,并為他們提供個性化服務,改善用戶體驗。
增強粘性:通過提供Agent服務,可以讓用戶更頻繁地與設備互動,增加用戶對品牌的忠誠度和設備的使用頻率。
競爭優勢:隨著市場競爭的加劇,廠商需要不斷創新以保持競爭力,集成先進的Agent技術可以作為賣點,吸引消費者購買。
商業模式創新:AI Agent可以開辟新的收入渠道和商業模式,比如通過智能推薦系統促進銷售,或者通過訂閱服務提供高級功能。
開拓新的收入流:智能Agent往往能夠與其他服務或產品相結合,為廠商創造新的收入渠道,如智能家居控制、電子商務購物、內容訂閱等。
提高工作效率:在企業服務領域,AI Agent可以幫助員工處理日常任務,提高工作效率,減少重復勞動,讓員工有更多時間專注于更有價值的工作。
客戶服務改善:AI Agent可以提供24/7的客戶服務,不僅提高了響應速度,還能夠處理大量的客戶咨詢,提升客戶滿意度。
除了以上幾點原因,還有重要的一點便在于AI Agent行業發展趨勢。
畢竟,按照比爾蓋茨的觀點,AI Agent將徹底改變人們線下和線上的生活方式,改變每個人與計算機的互動方式,還將顛覆軟件行業。
就智能手機而言,Gartner在相關報告中的觀點認為,生成式AI智能手機配備了硬件和軟件功能,能夠無縫集成和高效執行智能手機上的Gen AI驅動功能和應用程序。它們能夠在本地運行基礎或微調的人工智能模型,產生新的衍生版本的內容、策略、設計和方法。
無疑,這對于提升用戶體驗以及使用手機提升生產力有著莫大的幫助。
Forrester在相關報告中給出的兩組預測數據,也很好地說明了這個趨勢。
到2027年,超過60%的個人電腦微處理器將集成設備上的人工智能功能。隨著設備上的人工智能成為標準要求,這一比例將從2023年的10%上升。
同時,到2027年,智能手機中超過70%的其他應用處理器將集成設備上通用功能,而2023年這一比例為5%,設備上通用將成為一項標準要求。
處理器集成LLM,將會極大地拓展AI Agent的存在空間,并會進一步提升用戶體驗。
按照OpenAI CEO奧特曼的說法,Open AI的愿景是讓ChatGPT化身“超級智能工作個人助理”,為全能的AGI(通用人工智能)鋪路。
顯然,包括GPTs在內的AI Agent將會承載這個使命,而移動端Agent才是變革過往生產效率的真正開始。
手機智能體:跨端跨應用場景開啟
前文我們不只一次提到了手機上的AI智能體。能夠在手機上應用并執行各種任務的Agent,都可以視作手機Agent\手機智能體。
而AI手機本身,也是一個Agent。在OPPO AI中心產品總監張峻看來,AI手機不僅有底層硬件的需求,也有OS層面AI化和交互體驗的革新,它更像是一個超級智能體。
手機智能體不僅是智能助手的升級版,更是一種新的互動方式。它們能夠感知用戶的需求、自主決策執行,甚至學會用戶的習慣,為用戶提供更為個性化的服務。這種技術的發展將為我們帶來更加智能化、便捷和高效的手機體驗。
與PC端的Agent類似,目前的手機Agent一般分為兩種:一種是被釘釘稱作交互式的Agent,主要用于各種文字、圖片等的生成以及各種問答;另一種是能夠直接操作部分生態內業務應用的業務類Agent。在表現形式上,它們都是軟件機器人。
但手機Agent的構建并不一定在手機端,也可以在PC端。
手機Agent的目的是通過在手機上運行Agent程序或者軟件去執行各種對于手機的操作,以完成各種辦公場景中的任務,所以這個Agent的形態可能就是一個應用,或者是通過APP去調用的某個打包的可執行文件。
事實上,受限于手機訪問屏障門檻越發變高的趨勢,從PC端構建AI智能體是目前TO B領域的主流移動Agent解決方案。從電腦端觸發手機智能體會有更大的優勢,更能滿足B端客戶移動業務實現的需求,并能兼顧用戶的工作與生活細節。
在王吉偉頻道看來,我們日常工作中的大部分業務流程會分散到多端設備上,構建一個能夠跨終端的Agent去處理跨端、跨軟件、跨部門的業務流程是非常必要的,也是所有企業及辦公人員的剛需。
手機智能體最強的能力展現就是調用手機端的一切應用,一邊滿足企業用戶工作+生活并兼顧用戶在各場景中的便利,另一邊讓個人用戶一句話就暢享專屬手機智能體助理的貼心服務。
此外,由企業服務廠商推出的企業級手機Agent能夠做到足夠的安全級別,不用擔心隱私數據泄露等安全隱患。
以實在智能推出“手機+Agent”結合的手機智能體為例,它可以打破手機App的界限,跨應用操作任何手機軟件完成任務。
手機Agent能夠通過模仿人類的直觀動作來與手機應用程序交互,就像一個真人用戶一樣,可以查詢天氣訂機票、預約餐廳訂位、進行在線購物、編輯圖片或制作視頻,也可以操作辦公軟件發送郵件、采集業務數據和處理表格、提交工作流程審批單等等,只需一個指令,手機Agent智能體在瞬息間即可幫你完成。
例如,春節開工期間,您正忙于工作,無暇分身向客戶發送開工問候,類似于此的重復性工作,在手機智能體的幫助下就可以自動完成,只需對手機說出“向標簽為客戶的好友發送開工問候”的需求,它就可以識別您的微信標簽備注,向該標簽下所有客戶發送專屬問候語,成為你的手機辦公助理。
與傳統的Siri等智能語言助手不同的是,這個手機智能體不是簡單的命令執行者,而是規劃、決策和執行的多面手,通過ISSUT(智能屏幕語義理解技術)視覺能力進行整個操縱過程,無侵入接口,也不需要系統后臺訪問用戶的隱私、敏感數據來實現操作。
此外,PC智能體已經生成的業務流程跟蹤,也已經在手機端實現。比如,企業的高管通過手機智能體就可以輕松獲取當日最新控制臺業務分析數據,掌握第一手業務動態,及時將需要關注的動態發送給技術或支持人員等,提高工作的靈活性和信息反饋效率。
這個邏輯,是用手機去控制PC端智能體去執行相關的業務操作,這種跨系統、跨終端的連接型操作是基于手機Agent平臺構建的Agent所無法實現的。
這也意味著,在B端的具體業務應用上,AI Agent已經完成從原來的 “你說,PC做”到“你說,手機做”的跨越,并實現了“你說,PC+手機一起做”。
短短幾個月時間,AI Agent就已經涌向移動終端,手機智能體實現了跨端跨應用、場景聯動。國產廠商對于AI Agent的應用探索,一直處于潮流前端,真的是難能可貴。
從PC端智能體無縫切到手機智能體,以及用手機操作PC智能體的應用場景絲滑轉換,可以說是繼PC智能體后的又一智能體的突破性落地范例。
實在智能推出的手機Agent智能體,驗證了AI Agent的實用性,在移動Agent領域做出了一個很好的應用示范,其未來有更多創新的多模態框架探索。
手機智能體未來:終端Agent智能革命
手機智能體將會為大家帶來新的互動方式與個性化服務,并帶來更加智能化、便捷和高效的手機體驗。
未來,隨著手機智能體的不斷發展,它將會成為更加強大、智能化的存在,成為我們生活的一部分。當然手機智能體嶄露頭角,也預示著手機和移動終端行業新紀元的到來。
比爾·蓋茨認為,AI智能體最令人興奮的影響是它們將使當今對大多數人來說過于昂貴的服務民主化。并指出,智能體不僅會改變每個人與計算機交互的方式,還將顛覆軟件行業,帶來自我們從鍵入命令到點擊圖標以來最大的計算革命。
現在看來,手機智能體帶來的終端Agent智能革命,大概率會承載這一重要的歷史使命。
【王吉偉頻道,關注AIGC與IoT,專注數字化轉型、業務流程自動化與RPA?!?/p>
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!
作者|曾響鈴文|響鈴說在ChatGPT引爆大模型熱潮的2023年,很多人其實都還處于只聽說沒用過的階段。到了國內最早獲批的百度文心一言、中科院紫東太初、商湯日日新等正式對公眾開放服務后,最先進的AI科技,才絲滑地飛入尋常百姓家了。人工智能帶來的顛覆性讓大家伙短暫地擔憂過生成式應用“會不會把我的飯碗搶
如何創造更多財富?如何讓生意更好做?如何海量獲客和精準獲客?如何跟用戶拉近距離?如何自動成交?如何讓客戶自動裂變?這些都是秦剛公眾號后臺留言最多的問題。特別是在AI時代,我們都希望能夠找到一條通往財富的捷徑,作為一名24年的互聯網創業老板,秦剛非常理解這些的感受。有人說,挖金子是不會致富的,賣鏟子才
12月17日,以“數智·共生”為主題的2023傳神者沉浸式高峰論壇在北京成功舉行,論壇由北京語言大學國家語言服務出口基地、新譯科技國家語言服務出口基地、傳神語聯國家語言服務出口基地,三家國家級特色服務出口基地(語言服務)聯合主辦,瞻勝傳播協辦,匯聚了國內外數十位來自語言服務領域、文化傳播領域、高校教
“人工智能的商業模式,是要創造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執著于前沿技術的探索,后者則發力應用優化和商業化落地。南轅北轍的兩個方向,或許已經無法直接進行排位先后、優
智能體進化發展了一年,現在的RPAAgent迭代到什么程度了?從實在智能最新發布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現了流程全自動化AIAgent構建到執行全自動化,持續進化RPAAgent再次降低智能體應用門檻實在智能重磅發布實
崔大寶|節點財經創始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯的概念炒不動了,英偉達股價動輒暴跌重挫,引發“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節跳動宣布“以厘計費”,打響國內大模型
文|智能相對論作者|陳泊丞好消息!你心心念念的事業單位發錄取公告了!壞消息!他們沒錄你,錄了個數字人。圖片來源網絡隨著數字人技術的突破,越來越多的傳統企業和機構開始用上了“數字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數字人給捧上了。數字人捧上了“鐵飯碗”簡單翻看一下全國各地事業單位的“錄
黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業引發關注。據悉,近日地平線已通過中國證監會IPO備案,擬發行不超過11.5億股境外上市普通股并在香港聯合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供
8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態。據官方統計數據,今年現場逛展觀眾高達25萬人次,比去年增加25%。機器人行業有多火?看看2024世界機器人大會火爆程度便可知
瞄準場景需求,打造國內領先的自主可控、高質量超大載重高烈度環境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創業大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創業者峰會暨創業大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區的7406個創業項
人工智能是新一輪科技革命和產業變革的重要驅動力量。無錫市作為中國的科技創新中心之一,正通過構建人工智能"算力+算法+數據"三要素齊備的產業生態,為產業技術創新應用提供強大支撐,通過“AI+”行動推動人工智能與多個產業交叉融合,實現技術落地和產業化,加速形成新質生產力,打造具有國際競爭力的產業創新智造
近日,2024龍蜥操作系統大會(OpenAnolisConference)在北京圓滿召開,此次大會由中國計算機學會開源發展委員會、中關村科學城委員會、海淀區委網信辦、中國開源軟件推進聯盟指導,龍蜥社區主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進化