【摘要】近年來,大模型產業逐步從互聯網空間走向真實的物理世界,與實體經濟深度融合,在深度和廣度上更好地賦能智能經濟與智能社會的發展。應充分發揮我國生成式人工智能產業的規模優勢,聚焦多樣化應用場景的快速落地、商業模式創新與價值實現。從數據、算力、模型與應用場景等多維度,直面大模型應用落地中的各種挑戰,通過政策引領、體制機制創新、更高質量數據集的構建與開放使用、全國一體化AI算力基礎設施建設以及場景創新等的合力支撐,重塑我國生成式人工智能產業發展的全球競爭新優勢,讓中國的人工智能發展為增進人類福祉作出更大的貢獻。
【關鍵詞】大模型產業 生成式人工智能
通用智能體
【中圖分類號】TP18 【文獻標識碼】A
生成式人工智能的大型語言模型通常分為基礎(基座或底座)大模型、下游任務微調優化大模型等,目的是通過自監督學習方法,實現對文本、圖像、視頻、語音等多模態序列訓練數據的語言建模、理解與生成。具有下一個語義符(token)預測能力的大模型通過模仿人類的語言智能,不但對各種模態具有統一的語義對齊表達、學習與記憶,同時嵌入了數據驅動的人類一般性世界知識模型,因此能夠以數據智能新物種的形態完成過去僅有人類才能完成的、從簡單到復雜的多樣化任務。自2022年11月30日ChatGPT問世以來,生成式人工智能在全球范圍進入到爆發式發展階段,已初具產業落地的應用條件與生態。目前,基礎大模型需要進一步提升其完成復雜任務的能力,同時提高準確率,增強其安全與價值對齊,尤其是聚焦于如何大幅提高大模型的復雜邏輯推理能力。
近年來,國內大模型發展如火如荼。據統計,截至2024年4月底,國內總共推出305個大模型,其中參數規模超過10億的國產大模型達到了100多個,并且相當一部分來自于國內外的開源代碼,如美國Meta公司的Llama系列開源大模型等。從原理上來講,目前生成式預訓練模型面向自回歸或受損文本重建語言建模主任務,大多采用Transformer注意力神經網絡架構,同時使用基于隨機梯度下降的自監督學習方法。從使用的網絡架構與預訓練方法來說,各種大模型都相差不大,存在的不同之處主要涉及網絡結構參數與超參數,各種(層)歸一化或尺度變換的策略有所不同,預訓練的策略也可能存在差異,但這些本質上屬于工程實現問題。顯然,基于Transformer架構的基礎大語言模型及從頭開始的預訓練算法的研究,實際上并沒有多少創新之處,相應的開源代碼也難以較大程度地進行調整和修改。此外,預訓練所采用的大規模文本語料庫,如Pile等都屬于公開數據集,對應的預訓練算力也通常使用各種云服務器來完成。
在幾十億到幾十萬億參數規模的眾多大模型中,部分企業或研發機構僅解決了大模型的“發布”問題,并未針對大型語言模型亟需解決的準確率、幻覺與復雜邏輯推理能力等科學問題與技術落地“痛點”,開展實質性的原始創新或關鍵技術突破。一些企業甚至還涉嫌套牌使用。事實上,一年多來,我國大模型的融資案例超過了100起,新增投入達到了200億元以上,其中大部分資金主要用來購買或創建相應的AI算力或智算中心。
大模型的價值在于應用
只有在多樣化的實際應用場景中賦能智能經濟與智能社會的發展,才能體現生成式人工智能的產業價值,也才能成就大模型本身。如果說自2012年至2022年的人工智能是所謂的弱人工智能,相應的應用落地與產業發展較為艱難,那目前的生成式人工智能則邁入了完全嶄新的階段,其對經濟社會的影響與應用價值已不可同日而語。生成式人工智能作為新質生產力的典型代表,需要重點關注“人工智能+”或“+人工智能”,需要聚焦多模態大模型、具身智能與交互式人工智能在各個細分垂直領域與實際場景中的多樣化應用。
我國移動互聯網快速發展,不僅建設了全球規模最大的5G基礎設施,而且在移動支付、電子商務、數字經濟等方面始終位列全球第一梯隊。這為我國生成式人工智能產業的加速落地,提供了全球最具多樣化的應用需求與實際賦能場景。事實上,我國在弱人工智能的應用上長期走在世界前列。在政策加持與各種應用場景創新的引領下,我國在弱人工智能的應用落地速度、應用場景多樣性、標簽大數據體量和商業模式創新等方面,被普遍認為居于全球領先地位。實踐表明,在目前的全球創新生態中,相對于“從0到1”的原始性創新,加速大模型的落地應用是我們最擅長且最有可能支撐我國繼續占據全球人工智能第一陣營,并保持世界人工智能應用領先優勢,賦能經濟社會發展的關鍵變量。
在大模型快速發展的多樣化行業應用中,基礎或基座大型語言模型發揮著核心支撐作用,但面向多樣化任務需求進行的下游模型的微調顯得更為重要。這里的微調既包括模型中全部或部分參數的微小調整,也可以直接利用提示詞進行更為簡單自然的優化。微調學習方法既可以使用監督微調(SFT)方法,也可以采用強大的深度強化學習算法。針對AI輔助教育、AI輔助醫療、AI輔助金融以及智能問答、智能咨詢、智能推薦、智能總結、智能寫作、智能翻譯、智能決策、低代碼產業和人工智能生成內容(AIGC)、人工智能搜索引擎等各種下游任務,結合行業微調數據,基于思維鏈(CoT)等提示工程改變提問或遵從指令的技巧,同時通過將大模型與檢索增強生成(RAG)等技術進行結合,利用外部搜索工具及行業的知識庫或知識圖譜,可以進一步減少大模型的幻覺與偏見,提升其準確率與復雜的邏輯推理能力。不僅可以帶來更好的用戶體驗,而且可以強化對行業私有數據及專業知識庫的數據安全、數據隱私及知識產權保護。
在“大模型+RAG”中,通過對任務的理解,利用檢索引擎進行搜索,之后基于PageRank等網頁排序算法獲得相關知識的排序,再將搜索且排序的檢索結果匯合形成新的提示詞進行提問或發出指令,最后再利用各種大、小語言模型,以期獲得更加精準與合理的回答。大量實驗結果表明,這種創新的技術解決方案不僅無須上載私有的行業文檔資料及專業知識庫,克服對數據安全與知識產權保護的應用焦慮,而且可以有效地緩解幻覺,提高準確率與用戶體驗,還能提升大模型的時效性、邏輯推理能力、長期記憶及對各種外部或外掛工具的復用能力等。
除了上述大型語言模型(LLM),目前小型語言模型(SLM)或稱小模型以其高效、輕量、緊湊與低成本的特點,持續得到全球頭部企業的高度關注,并不斷得到發展。如微軟的Phi-2、Phi-3序列,又如谷歌的Gemma和英國的Mistral等。這些小模型通常僅有幾十個億的參數規模,由于采用了高質量數據進行從頭開始的預訓練,同時充分蒸餾、量化了Transformer架構的冗余參數,因而可以在單卡甚至在手機移動端側進行推斷部署。結合知識儲備與邏輯推理能力等在內的許多基準測試結果表明,輕量化小模型的性能甚至可以超越規模大其數十倍以上的大模型,這讓多模態智能體的開發與應用更加高效、實時與靈活。因此,“小模型+RAG”在具身智能體與交互式人工智能的應用落地實踐中,同樣需要得到重視。
綜上所述,一方面,應繼續大力發展行業大模型與應用場景大模型,保持其良好發展勢頭,深耕“人工智能+”與“+人工智能”的垂域應用;另一方面,應聚焦大模型產業應用中的高質量數據集構建、大規模分布式AI算力網的一體化部署、混合專家模型(MoE)、高效微調、大/小模型+RAG、知識增強、邏輯增強、大模型的壓縮及量化技術,提示工程以及大、小模型與強化學習、圖神經網絡及長期記憶的結合等,為我國大模型產業的應用落地提供源源不斷的技術創新動能與共性關鍵技術新突破。
我國大模型產業發展迎來重要窗口期
通用人工智能目前正經歷如下迭代演化路徑,即從早期的GPT等文本語料大型語言模型(包括基礎/基座模型與下游微調模型),然后通過增加視、聽、說以及移動與操作能力等,迭代升級到目前正蓬勃發展中的多模態大型語言模型和多模態具身智能體,并將進一步發展到多模態交互式通用人工智能新階段。
在架構方面,Transformer注意力神經網絡主要涉及編碼器和解碼器兩個部分,前者用于對輸入token序列進行掩碼預測與編碼表達,后者則可以進一步實現對大規模訓練序列或對物理世界的自回歸逼近與生成。需要注意的是,GPT等生成式預訓練大模型或生成式人工智能通常僅由多層解碼器組成。簡單來說,生成式人工智能就是模仿學習,這里的生成實際就是模仿。而通用人工智能的路徑演化則是“模仿學習+交互式學習”。
2023年下半年以來,可直接賦能人形機器人和自動駕駛的多模態大模型、多模態具身智能體得以迅猛發展,人工智能的應用逐步從互聯網空間走向真實的物理世界,開始更加重視與實體經濟的融合發展,并賦能新制造、新能源與新零售等垂直領域或行業的產業部署與跨界應用。人工智能的應用在全球范圍呈現爆發性增長態勢,我國大模型產業發展迎來重要窗口期。
隨著GPT-4V等的正式發布,多模態大模型已具有“讀圖”“讀音”或直接看懂圖像、視頻與聽懂語音的能力。例如,基于單段式端到端視覺語言動作大模型的智能體,利用少量編程即可構建出視覺神經網絡,然后通過直接觀看人類移動或操作視頻就可進行直覺或本能的“快思維”自主學習,從而獲得在真實物理世界中的相應技能。總體來看,相對于過去分段式的人工智能方法,單段式或單模型的端到端視覺語言動作大模型及其解決方案是自動駕駛與人形機器人研發范式的一個根本性改變,是真正的全自主學習人工智能解決方案。正是由于上述新范式、新導向的出現,我們有理由相信自動駕駛將有可能實現L4級別,甚至達到完全人類水平的L5級別。具身智能體人形機器人將滲透到實體經濟的千行百業,成為智能制造的主力,同時走入千家萬戶,完成精神陪護、家政服務與養老服務等。人機共融社會的未來景象或將不再是一種科幻般的憧憬。這種顛覆性技術變革所帶來的生產力與生產效率躍升及人類文明進步,有望創建數十萬億美元的產業想象空間,必將具有“改變世界”的重大意義與巨大的產業帶動作用。為此,我們必須未雨綢繆,在戰略性新興產業與未來產業的國家戰略安排與產業布局上給予足夠的重視。
總體上,包括單段式端到端純視覺方案在內,多模態大模型與具身智能體賦能通用人形機器人和自動駕駛等的快速發展,不僅構筑了國家重大戰略發展的價值新高地,而且是發展新質生產力與顛覆性技術創新的典型代表;不僅是助推智能經濟與智能社會發展的新機遇、新引擎和新動能,也是國際競爭與合作的新陣地、新賽道和新風口。
我國大模型產業發展面臨挑戰
在某種意義上,人類似乎找到了一條可行的人工智能實現路徑,即以數據智能的形態模仿并交互式學習人類的外部智能行為,以完成過去僅有人類才能完成的一系列復雜任務。從整個迭代演化路徑來看,目前通用人工智能的發展才剛剛拉開序幕。在邁向更高水平的通用人工智能,甚至走向強人工智能“奇點”時刻的征途上,前方的道路充滿了挑戰。
人工智能涉及數據、算力、模型與算法、應用場景和垂直整合五個維度,其中數據是基礎,芯片是高地,算法是核心,人才是關鍵,選定垂直細分領域最重要。我國大模型產業在基礎算法創新、基座大模型預訓練數據、公共算力占比等方面需要進一步提升。由于大模型產業的資源投入較大、產業鏈條較長、應用場景多樣復雜,企業普遍面臨著高端人才不足、資金與技術匱乏等難題。一方面需要降低從頭開始的基礎模型的分布式預訓練成本,特別是大幅減少垂直行業大模型的推斷應用部署成本;另一方面還需要推動傳統企業數字化轉型升級,賦能企業提質增效,進一步改善用戶體驗與提高市場滲透率。
為此,我們需要首先針對行業與實際應用場景獲取高質量預訓練數據與微調數據。在大模型的應用實踐中普遍存在著數據的碎片化、“孤島”、冗余、野值和非均衡等難題,不僅需要發展高質量的數據采集與清洗技術,如面向語言建模主任務的數十萬億token的大規模語料庫,以及行業預訓練數據、結合特定任務從數十萬至百萬量級的短視頻訓練數據;還需要有效利用各種專業知識庫的搜索與知識增強、邏輯增強,并著力解決數據安全、隱私保護、知識產權和數據合規等應用落地問題,推進人工智能治理的國際合作。與此同時,為了提高智能體的學習效率與質量,應進一步引入Sora、空間智能等世界模擬器,用于提供合成視頻訓練數據,以彌補人類視頻訓練數據的不足,并提高訓練效能。
其次,在AI算力基礎設施的需求與產業化部署方面,隨著多模態大模型與具身智能體的發展,尤其是單段式端到端視覺語言動作大模型的范式變革,由于涉及時空像素空間的物理學規律模擬,因此對分布式預訓練的AI算力需求巨大。視覺作為高階模態(時空上下文長序列),同時考慮到生成式人工智能的規模化定律(Scaling Law)與涌現能力,因此發展基礎大型語言模型、行業大模型、多模態視覺語言動作大模型與通用世界模擬器作為合成視頻數據等,均需要極大的AI算力作為支撐。為此,我們需要有效構建并充分利用10—100個E量級的全國一體化AI算力基礎設施,以泛在的智慧云方式,大幅減少重復建設與資源浪費,補齊短板,發揮優勢。
在模型與算法創新方面,針對長尾應用與邊緣事件,前述單段式端到端視覺語言動作大模型帶來了歷史性機遇,極有可能成為技術突破的有效方案。目前圍繞多模態大模型與具身智能體的理論與技術創新,如Transformer模型的平替與升級換代已成為全球科技界、產業界共同關注的創新焦點。考慮到Transformer模型通常具有二次方的計算復雜度,因此各種具有線性復雜度,乃至常數復雜度的新一代注意力模型與在線學習模型,成為當前學術研究的重點。此外,基礎大模型的性能上限在哪里?規模化定律是否具有更大程度的普適性?如何突破符號水平的復雜邏輯推理能力?有關數據智能新物種的自主意圖、自我意識與自我進化等是否應設定為人類發展通用人工智能的紅線?這些已成為有關模型與算法創新的熱點問題。
最后,開放域的人工智能應用場景落地自2012年以來一直是一個重要問題,原因是面對長尾與邊緣挑戰,人們不能通過感知—決策列舉的方式,全面探索和嘗試所有可能的路徑和方法。因而在相當程度上降低了多模態智能體的環境適應性與自主能力。在高AI算力的支撐下,大模型落地應用場景以學習解決一切問題,通過遠比人類強大的高效的自監督學習,實現了對人類全部文本語料數據的模擬,基于多模態方式完成對人類各種感知與行為動作能力的模仿學習,并最終利用多模態智能體與真實物理世界的交互式強化學習,獲得從“形似到神似”的性能躍升。在此過程中,大模型方法本質上構建并利用了某種意義上的人類語言智能與知識驅動模型,獲得了時空場景的理解能力與邏輯推理能力,也進行了結合虛實平行世界的交互式自主探索與最優策略遷移。這些不僅為大模型面向開放域長尾與邊緣挑戰的真實場景的落地應用,提供了一種更加類似人類視覺技能學習的嶄新范式,而且為多模態智能體的迭代演化指明了前行的方向。
總之,我國大模型產業的發展在數據、算力、算法與應用場景創新方面,正經歷前所未有的歷史性機遇與挑戰。面對席卷而來的生成式人工智能發展浪潮,我國生成式人工智能與通用人工智能作為新質生產力,一定能夠賦能經濟社會發展。通過政策引領、體制機制創新、更高質量數據集的構建與開放使用、全國一體化AI算力基礎設施建設以及場景創新等的合力支撐,充分發揮我國大模型產業的規模優勢,塑造我國生成式人工智能產業發展的全球競爭優勢,讓中國的人工智能發展為增進人類福祉作出更大的貢獻。
(作者為清華大學計算機科學與技術系教授,人工智能研究院視覺智能研究中心主任)
責編/銀冰瑤 美編/楊玲玲
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。
![](http://img.rmlt.com.cn/templates/rmlt2013/img/rmlt_logo.jpg)