真人片免费在线观看网址,91精品啪在线观看国产老湿机,久久久久人妻一区二区三区vr

大模型掀起諸神之戰(zhàn)，我們更需要人人可用的“普惠模型”

2023/04/18

“人人都會大模型開發(fā)”，這才是AI大模型技術(shù)普惠的必經(jīng)之路，也是我國AI大模型實現(xiàn)趕超的關(guān)鍵。

本文來自于微信公眾號“羅超頻道”（ID：luochaotmt），投融界經(jīng)授權(quán)發(fā)布。

大模型行業(yè)越來越熱鬧。國外，馬斯克為Twitter搶購1萬塊GPU籌備大模型項目、亞馬遜大力投資大型語言模型和生成式AI、OpenAI推出了ChatGPTiOS版本；國內(nèi)，百度發(fā)布文心一言、阿里發(fā)布通義千問，王小川、王慧文、閆俊杰等“有背景”的創(chuàng)業(yè)者跑步進(jìn)場。

大模型掀起諸神之戰(zhàn)，我們更需要人人可用的“普惠模型”

相較于深度學(xué)習(xí)而言，大模型讓AI的認(rèn)知能力更上一層樓，進(jìn)而實現(xiàn)所謂的“智能涌現(xiàn)”，催生出ChatGPT、AutoGPT、AIGC等新型應(yīng)用，讓AI全面進(jìn)入工業(yè)化大生產(chǎn)階段。英偉達(dá)創(chuàng)始人、CEO黃仁勛說：AI的“iPhone時刻”來臨。在激動人心的“iPhone時刻”，行業(yè)缺什么？

百模大戰(zhàn)

AI的門檻一下變高了

跟當(dāng)年的AI創(chuàng)業(yè)以及互聯(lián)網(wǎng)創(chuàng)業(yè)生態(tài)不同，大模型成為“頭號玩家”的游戲，活躍的玩家要么是大廠，要么是有資金加持的“有背景”創(chuàng)業(yè)者，“草根創(chuàng)業(yè)者”尚未出現(xiàn)。

大模型具有“巨量數(shù)據(jù)、巨量算法、巨量算力”三大“巨量”特征，對任何企業(yè)包括巨頭來說，打造一個大模型都不是一件容易的事情，需要收集海量數(shù)據(jù)、需要采買海量算力、需要進(jìn)行大量研發(fā)，金錢、時間、人力投入同樣“巨量”。ChatGPT是創(chuàng)業(yè)公司OpenAI做的，這家公司在2015年成立后低調(diào)耕耘8年，且有微軟等巨頭/大佬支持，底層硬件投入高達(dá)10億美元以上，每次訓(xùn)練消耗的電力足夠3000輛特斯拉汽車每輛跑20萬英里。

“巨量”特征讓大模型研發(fā)門檻極高，但任何技術(shù)生態(tài)要走向繁榮都離不開社會化創(chuàng)新。移動互聯(lián)網(wǎng)的崛起源自于iOS和安卓的出現(xiàn)，但也離不開應(yīng)用市場數(shù)百萬開發(fā)者的創(chuàng)新。同理，大模型上“長出”的應(yīng)用也都得靠開發(fā)者來定義，讓AI大模型為所有開發(fā)者（技術(shù)服務(wù)商、企業(yè)、組織、個體開發(fā)者等）所用，是加速大模型產(chǎn)業(yè)發(fā)展的關(guān)鍵。

截至目前，大模型還處在“只聽其聲不聞其人”的階段，大廠的大模型已在開放，但需要使用者有較高的人才、算力等資源配置，當(dāng)下市面上急缺一款讓開發(fā)者乃至大學(xué)生等群體“人人可用”的大模型。

62億參數(shù)規(guī)格

大模型也能“小而美”

最近我在朋友圈看到有人分享了一個輕量級開源大模型：中英雙語對話模型ChatGLM-6B，它的最大特點是輕量化，支持在單張消費級顯卡上進(jìn)行部署推理使用，這讓它具備人人可用的基礎(chǔ)——千億規(guī)格的大模型往往需要成百上千張顯卡才能部署。

ChatGLM-6B來自智譜AI這家公司，它由清華技術(shù)成果轉(zhuǎn)化而來。2022年8月，智譜AI旗下的千億級參數(shù)模型GLM-130B中英雙語稠密模型正式向研究界和工業(yè)界開放——“130B”是130billion的縮寫，即1300億參數(shù)。據(jù)官網(wǎng)介紹稱，GLM-130B與BERT、GPT-3和T5有著不同的架構(gòu)，是一個包含多目標(biāo)函數(shù)的自回歸預(yù)訓(xùn)練模型，具有雙語支持、高精度和快速推理等特性。

2022年11月，斯坦福大學(xué)大模型中心對全球30個主流大模型進(jìn)行了全方位的評測，GLM-130B是亞洲唯一入選的大模型。在與OpenAI、谷歌大腦、微軟、英偉達(dá)、臉書的各大模型對比中，評測報告顯示GLM-130B在準(zhǔn)確性和惡意性指標(biāo)上與GPT-3175B（davinci）接近或持平，魯棒性和校準(zhǔn)誤差在所有千億規(guī)模的基座大模型（作為公平對比，只對比無指令提示微調(diào)模型）中表現(xiàn)不錯。

大模型掀起諸神之戰(zhàn)，我們更需要人人可用的“普惠模型”

2023年3月14日，智譜AI基于GLM-130B推出的千億對話模型ChatGLM開始內(nèi)測，ChatGLM對標(biāo)ChatGPT，具備問答和對話功能且針對中文進(jìn)行了優(yōu)化，第三方評測顯示其具備ChatGPT3.5至少70%的能力水平。同一天，智譜AI還開源了62億參數(shù)的ChatGLM-6B模型。根據(jù)官方Blog顯示，ChatGLM-6B采取跟GLM-130B一樣的架構(gòu)與技術(shù)，其將參數(shù)規(guī)格從千億精簡到62億，具有如下特征：

第一，輕量級。結(jié)合模型量化技術(shù)，ChatGLM-6B參數(shù)大幅精簡，INT4量化級別下最低只需6GB顯存，支持在單張消費級顯卡上進(jìn)行本地部署，部署門檻與推理成本大幅降低。

第二，中英雙語對話。進(jìn)行了充分的中英雙語預(yù)訓(xùn)練，經(jīng)過約1T標(biāo)識符的中英雙語訓(xùn)練，輔以監(jiān)督微調(diào)、反饋自助、人類反饋強(qiáng)化學(xué)習(xí)等訓(xùn)練方式，它更能對齊人類意圖，進(jìn)而擁有不錯的智能表現(xiàn)。

第三，國產(chǎn)自主。GLM-130B對國產(chǎn)信控生態(tài)有較好的支持，可在國產(chǎn)的海光DCU、華為昇騰910和申威處理器及美國的英偉達(dá)芯片上進(jìn)行訓(xùn)練與推理。ChatGLM-6B作為國產(chǎn)自主的輕量級大模型也支持信控平臺，可助力我國AI技術(shù)特別是大模型自主化。

截至目前ChatGPT、文心一言、通義千問的體驗門檻都很高，而ChatGLM-6B支持公眾體驗（http：//open.bigmodel.ai/trialcenter），簡單注冊后，我體驗了一下它的能力。對近期AI型圈沸沸揚(yáng)揚(yáng)的口水戰(zhàn)，它回答得很得體。

我打算做一個華為最新折疊屏手機(jī)MateX3的評測，讓ChatGLM-6B幫忙寫一個提綱，結(jié)果中規(guī)中矩，思路沒問題：

寫詩這樣的常規(guī)任務(wù)不在話下。

商業(yè)文案創(chuàng)作比如取名、想廣告詞都可以做，“喝蜜雪，不舔蓋”，很有創(chuàng)意了。

體驗中大部分時候ChatGLM-6B的表現(xiàn)相比ChatGPT、文心一言、通義千問并不遜色，考慮到它是一個只有62億參數(shù)的“輕量版”大模型，哪怕“遜色”也都可以原諒了。特別值得一提的是，智譜AI針對取標(biāo)題、寫文章等不同場景進(jìn)行了調(diào)優(yōu)，讓它在滿足對應(yīng)AIGC需求時有更出色的表現(xiàn)。

ChatGLM-6B的參數(shù)規(guī)格只有62億，因此也存在一些不容回避的問題，比如在面對許多事實性知識任務(wù)時可能會生成不正確的信息，不擅長邏輯類問題（如數(shù)學(xué)、編程）的解答，對多輪對話的支持很一般。

要真正擁有人的智商，AI大模型依然任重道遠(yuǎn)。AI大模型的完整稱呼是“AI預(yù)訓(xùn)練大模型”，“預(yù)訓(xùn)練”的字面意思很容易理解：預(yù)先訓(xùn)練好，這樣應(yīng)用開發(fā)者可得到相對現(xiàn)成的訓(xùn)練結(jié)果，基于此直接開發(fā)AI應(yīng)用，不再需要從0到1訓(xùn)練數(shù)據(jù)、建立模型。它通過堆疊數(shù)據(jù)集“貪婪式”地訓(xùn)練模式，擁有較強(qiáng)的通用性，理論上可泛化到多種應(yīng)用場景，而小樣本或零樣本的技術(shù)實現(xiàn)，則可讓應(yīng)用開發(fā)者快速基于其構(gòu)建工程應(yīng)用。

顯而易見，ChatGLM-6B的出現(xiàn)體現(xiàn)出了大模型預(yù)訓(xùn)練與泛化通用的精髓，它的理念是“有舍才有得”，弱化一些能力，但降低了部署門檻，讓開發(fā)者、研究者在本地計算機(jī)上進(jìn)行大模型的微調(diào)、部署、訓(xùn)練成了可能，進(jìn)而可更好地支持大模型落地到海量場景。

在前幾天的一次公開活動上，智譜AICEO張鵬曾表達(dá)一個觀點，“AIGC產(chǎn)業(yè)基座是預(yù)訓(xùn)練大模型，原因在于兩個方面：第一、通用泛化能力，為AI研發(fā)降本增效，這是非常關(guān)鍵的特性；第二，融入更多知識，讓大模型能更好模擬人的智能。但與此同時也面臨著一些挑戰(zhàn)，比如成本高昂、訓(xùn)練數(shù)據(jù)巨大，周期長等。”ChatGLM-6B的開源正是智譜AI實現(xiàn)通用泛化、降低AI研發(fā)門檻與成本的實踐。

開源一個月后，ChatGLM-6B的Huggingface全球下載量已超過75萬，持續(xù)兩周位列Huggingface全球模型趨勢榜榜首，GitHub星標(biāo)數(shù)達(dá)到1.7萬。“小而美”的ChatGLM-6B在開源社區(qū)走熱是大模型熱的縮影。

ChatGLM-6B讓大模型技術(shù)“人人可用”

ChatGLM-6B通過輕量化的模式實現(xiàn)大模型的通用泛化，解決了大模型“高不可攀”這一開發(fā)者的痛點。在日益蓬勃的大模型產(chǎn)業(yè)中，有著獨特占位的ChatGLM-6B將在AI技術(shù)普惠中扮演重要角色。具體來說，它將給大模型產(chǎn)業(yè)帶來如下好處：

1、降低大模型使用門檻。更多開發(fā)者可輕松部署大模型，一方面，ChatGLM-6B是開源的，開發(fā)者可深入大模型底層一探究竟，只有搞清楚大模型的運轉(zhuǎn)機(jī)制才能更好地利用好大模型技術(shù)。另一方面，開發(fā)者可基于ChatGLM-6B進(jìn)行上層應(yīng)用創(chuàng)新，開發(fā)出我們今天想都想不到的創(chuàng)新AI應(yīng)用，在工業(yè)化階段再切換到GLM-130B這樣的千億級大模型上。

2、降低大模型的訓(xùn)練成本。大模型訓(xùn)練成本高昂且耗能，基于開源的ChatGLM-6B，開發(fā)者不再需要搭建龐大的算力體系，在訓(xùn)練推理時也不需要耗費驚人的電力資源、所需時間周期將大幅縮短，進(jìn)而更高效、低碳、經(jīng)濟(jì)地應(yīng)用大模型技術(shù)，加速AI工業(yè)化大生產(chǎn)。

3、有利于大模型的教育普及。喬布斯當(dāng)年曾說人人都要會編程，未來人人則要學(xué)會使用AI工具。在教育場景，計算機(jī)相關(guān)專業(yè)的大學(xué)生以及對編程有興趣的青少年，只要有一臺搭載顯卡的計算機(jī)就能輕松地部署ChatGLM-6B，可以盡早了解并學(xué)會應(yīng)用大模型這一基礎(chǔ)技術(shù)。

個人覺得，“ChatGLM-6B+GLM-130B”的組合模式給AI大模型產(chǎn)業(yè)落地提供了一個新的范式：輕量級大模型扮演普惠的角色，讓更多人輕松“入門”，學(xué)習(xí)、理解、熟悉大模型技術(shù)，進(jìn)行創(chuàng)新應(yīng)用的開發(fā)、驗證、測試等。到了應(yīng)用階段，如有必要再使用GLM-130B這樣的千億級工業(yè)化大模型部署產(chǎn)品，面向客戶與用戶提供商業(yè)化服務(wù)。

寫在最后：

AI大模型技術(shù)掀起新一輪產(chǎn)業(yè)革命，人類社會的生產(chǎn)力、生產(chǎn)資料與生產(chǎn)關(guān)系都將被重新定義，人們的生活與工作方式、企業(yè)的經(jīng)營模式以及社會的治理方式都在被重構(gòu)。在這樣的大變局下，AI大模型已成為“國之重器”。

在技術(shù)浪潮涌來時，國際形勢正波詭云譎，大國競爭日益激烈，科技是核心角力場，不論是十四五規(guī)劃綱要還是二十大均明確要增強(qiáng)科技創(chuàng)新引領(lǐng)作用，實現(xiàn)高水平科技自立自強(qiáng)。在這樣的時代背景下，大模型成了跟芯片一樣的制高點，我國必須要有自己的底層大模型技術(shù)，更需要有自己的完整的大模型應(yīng)用與產(chǎn)業(yè)生態(tài)。

這幾天，王小川與百度的口水戰(zhàn)在大模型行業(yè)引發(fā)熱議，其實爭論“我國大模型距離ChatGPT的差距究竟是2個月還是2年”沒什么意義，我國大模型技術(shù)距離GPT還有客觀的差距，推動大模型技術(shù)精進(jìn)和產(chǎn)業(yè)落地，是大模型玩家們的責(zé)任，行業(yè)更需要ChatGLM-6B這樣的可落地的解決方案，它大幅降低了AI開發(fā)門檻，未來還可結(jié)合低代碼等技術(shù)實現(xiàn)“人人都會大模型開發(fā)”，這才是AI大模型技術(shù)普惠的必經(jīng)之路，也是我國AI大模型實現(xiàn)趕超的關(guān)鍵。

在官方博客上，ChatGLM團(tuán)隊有一段樸素的文字：

“我們一直在探索、嘗試和努力，GLM系列模型取得了一絲進(jìn)展，但我們離國際頂尖大模型研究和產(chǎn)品（比如OpenAI的ChatGPT及下一代GPT模型）都還有明顯差距。中國大模型研究在原創(chuàng)算法、AI芯片和產(chǎn)業(yè)上的追趕與突破需要大家的一起努力，更需要我們對下一代AI人才的培養(yǎng)與鍛煉。很幸運的是，GLM團(tuán)隊在過去幾年探索的過程中，有一群有情懷、有能力、有格局的年輕人加入我們并肩作戰(zhàn)，快樂開卷，大家一起焦慮，一起熬夜，一起成長，一起創(chuàng)造。通用人工智能探索，我們一直在路上，努力前行?！?/span>

我覺得還是很扎心的。大模型熱潮中，渾水摸魚、蹭熱點、搞炒作的玩家不少，但也有一些腳踏實地的團(tuán)隊正在研發(fā)大模型技術(shù)，想方設(shè)法在推動大模型落地，只爭朝夕地追趕先行者，他們，值得被尊敬。

版權(quán)聲明本文經(jīng)授權(quán)發(fā)布，不代表投融界立場。如若轉(zhuǎn)載請聯(lián)系原作者

AI 大模型技術(shù)

評論

還可輸入300個字

發(fā)布留言