2022年11月30日,OpenAI發(fā)布了ChatGPT,在全球范圍內(nèi)引發(fā)了人工智能熱潮。ChatGPT(Chat Generative Pre-trained Transformer),即聊天生成式預(yù)訓(xùn)練轉(zhuǎn)換器。它通過與人類做文字對(duì)話的方式,“與人進(jìn)行實(shí)時(shí)對(duì)話,即時(shí)回答問題;可以做到理解上下文,實(shí)現(xiàn)連續(xù)對(duì)話;可以撰寫和修改計(jì)算機(jī)代碼;編寫文案、腳本、大綱、策劃;快速生成新聞報(bào)道、創(chuàng)作詩歌”等,提供相應(yīng)的文字回答,且回答的內(nèi)容“形式上合理”。
創(chuàng)新困境者的突圍
人類從誕生開始,就一直不斷地認(rèn)識(shí)自然,改造自然。但當(dāng)人類感到自己本體機(jī)能受限時(shí),技術(shù)就應(yīng)運(yùn)而生。技術(shù)加強(qiáng)了人類的本體技能,其本質(zhì)是人類的延伸。體力(手腳、軀干)的延伸促進(jìn)了機(jī)械化的產(chǎn)生,感知力(眼耳鼻舌身)的延伸促進(jìn)了信息化的產(chǎn)生,從工具到汽車,從PC機(jī)到AlphaGo,再到ChatGPT,認(rèn)知力(意即大腦)的延伸促進(jìn)了智能化的發(fā)展。
從AI技術(shù)層面來看,ChatGPT所能實(shí)現(xiàn)的人類意圖,來自于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、轉(zhuǎn)換器和多層感知機(jī)模型的多種技術(shù)架構(gòu)及模型積累,最終形成針對(duì)人類反饋信息學(xué)習(xí)的大規(guī)模自然語言處理模型。截至2023年1月,ChatGPT的用戶超過1億,成為迄今為止增長最快的消費(fèi)者應(yīng)用程序。這是因?yàn)槿藗冎饔^的認(rèn)知和表達(dá),以及自然科學(xué)和社會(huì)科學(xué)都要以具有實(shí)質(zhì)性的內(nèi)容作為基礎(chǔ)和前提,沒有內(nèi)容就沒有人類文明。ChatGPT的500多位開發(fā)科學(xué)家突破的就是“內(nèi)容”這個(gè)困境!
突破困境,就會(huì)形成質(zhì)的突變。數(shù)據(jù)表明,ChatGPT用了5天漲粉到100萬,而蘋果用了74天,推特用了2年,奈飛用了3年半。
理想主義者的堅(jiān)持
ChatGPT是由OpenAI團(tuán)隊(duì)研發(fā)創(chuàng)造,OpenAI是由SpaceX創(chuàng)業(yè)者埃隆·馬斯克、美國創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼、全球在線支付平臺(tái)PayPal聯(lián)合創(chuàng)始人彼得·蒂爾等人于2015年在舊金山創(chuàng)立。OpenAI的創(chuàng)立目標(biāo)是與其他機(jī)構(gòu)合作進(jìn)行AI的相關(guān)研究,并開放研究成果以促進(jìn)AI技術(shù)的發(fā)展。
ChatGPT經(jīng)歷多類技術(shù)路線演化,逐步成熟與完善。其GPT(Generative Pre-trained Transformer,生成式預(yù)訓(xùn)練轉(zhuǎn)換器)模型是一種自然語言處理模型,使用轉(zhuǎn)換器來預(yù)測下一個(gè)單詞的概率分布,通過訓(xùn)練在大型文本語料庫上學(xué)習(xí)到的語言模式來生成自然語言文本。
從1950年AI始祖圖靈提出基于規(guī)則的少量數(shù)據(jù)處理,給出判斷機(jī)器是否具有“智能”的方法——圖靈測試開始,AI技術(shù)開始了漫長的探索。直到30年后,機(jī)器學(xué)習(xí)出現(xiàn),才以可根據(jù)一定范圍的數(shù)據(jù)進(jìn)行參數(shù)分類,但受限于技術(shù)水平,AI僅限于小范圍實(shí)驗(yàn)。到了20世紀(jì)90年代,基于機(jī)器學(xué)習(xí)延伸出來的一個(gè)新的領(lǐng)域——深度學(xué)習(xí)出現(xiàn)了,它是以受人大腦結(jié)構(gòu)為啟發(fā)的神經(jīng)網(wǎng)絡(luò)算法為起源加之模型結(jié)構(gòu)深度的增加發(fā)展,并伴隨大數(shù)據(jù)和計(jì)算能力的提高而產(chǎn)生的一系列新的算法。進(jìn)入21世紀(jì),獲得突破的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其后來發(fā)展的生成式對(duì)抗網(wǎng)絡(luò)(GAN)開始模仿人腦進(jìn)行大量數(shù)據(jù)的標(biāo)記和訓(xùn)練,分別在計(jì)算機(jī)視覺和自然語言處理領(lǐng)域得到廣泛使用,帶動(dòng)了人工智能領(lǐng)域的蓬勃發(fā)展。
深度學(xué)習(xí)的發(fā)展讓我們第一次看到并接近人工智能的終極目標(biāo),AI從實(shí)驗(yàn)性向?qū)嵱眯赞D(zhuǎn)變,但缺陷是受限于算法瓶頸,無法直接進(jìn)行內(nèi)容生成。
2017年,Ashish Vaswani et.al的論文《Attention Is All You Need》中,提出了一種新的簡單架構(gòu)——轉(zhuǎn)換器(Transformer),徹底顛覆了過去的理念,沒用到卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),它完全基于注意力機(jī)制,不用重復(fù)和卷積,因而這些模型在質(zhì)量上更優(yōu),同時(shí)更易于并行化,并且需要的訓(xùn)練時(shí)間明顯更少。該論文被評(píng)為自然語言處理領(lǐng)域的年度最佳論文。
Transformer出現(xiàn)以后,迅速躋身主流模型架構(gòu)基礎(chǔ),使深度學(xué)習(xí)模型參數(shù)達(dá)到了上億的規(guī)模。AI技術(shù)的發(fā)展也呈現(xiàn)出模型之爭,重大研究方向就是自然語言處理任務(wù)。隨之,自然語言處理任務(wù)就轉(zhuǎn)入了兩大流派的競賽,按轉(zhuǎn)換器架構(gòu)可分OpenAI的自回歸系列(例如GPT-3,偏好生成性任務(wù));谷歌的雙向Transformer+Mask的自編碼系列(例如BERT,偏好自然語言理解)。
從2018年開始,谷歌率先提出了3億參數(shù)模型BERT,陸續(xù)又推出了ELNet、RoBERTa、T5等,到了2021年則推出高達(dá)1.6萬億的參數(shù)量的Switch Transformer模型。2023年2月4日,谷歌注資3億美元投資Anthropic,Anthropic 開發(fā)了一款名為Claude的智能聊天機(jī)器人,據(jù)稱可與ChatGPT相媲美(仍未發(fā)布)。
而OpenAI也在兩年左右的時(shí)間,先后推出了GPT- 1到GPT- 3,再到ChatGPT,參數(shù)實(shí)現(xiàn)了從億級(jí)到上千億級(jí)的突破,并能夠?qū)崿F(xiàn)作詩、聊天、生成代碼等功能。作為OpenAI最大投資方的微軟,開始利用ChatGPT提高產(chǎn)品競爭力,將ChatGPT整合進(jìn)Bing搜索引擎、Office全家桶、Azure云服務(wù)、Teams程序等產(chǎn)品中。
此外包括微軟、Meta、英偉達(dá)、華為、百度、阿里等巨頭在內(nèi)的全球領(lǐng)先企業(yè)紛紛參與其中,預(yù)訓(xùn)練大模型已經(jīng)成為整個(gè)AI領(lǐng)域的競爭焦點(diǎn)。
混沌和近臨界邊緣者的沖浪
2022年,在ChatGPT溫和聚變式的科技革命中,人工智能生成內(nèi)容后來居上,以超出人們預(yù)期的速度成為科技?xì)v史上的重大事件,迅速催生了全新的科技生態(tài)。
在國內(nèi),2021年成為中國AI大模型的爆發(fā)年。眾多公司和研究機(jī)構(gòu)正在積極開展對(duì)大模型的研發(fā)。代表性的有華為云聯(lián)合循環(huán)智能發(fā)布的基于昇思MindSpore打造的1000億參數(shù)盤古NLP模型、聯(lián)合北京大學(xué)發(fā)布2000億參數(shù)的盤古α模型;百度推出基于PaddlePaddle 開發(fā)的2600億參數(shù)ERNIE3.0 Titan模型;而阿里達(dá)摩院聯(lián)合清華大學(xué)發(fā)布的中文多模態(tài)模型M6參數(shù)達(dá)到10萬億,將大模型參數(shù)直接提升了一個(gè)量級(jí)。
2022年,基于清華大學(xué)、阿里達(dá)摩院等研究成果以及超算基礎(chǔ)實(shí)現(xiàn)的“腦級(jí)人工智能模型”——八卦爐(BAGUALU)完成建立,其模型參數(shù)模型突破了174萬億個(gè),完全可以與人腦中的突觸數(shù)量相媲美。
目前,大模型參數(shù)規(guī)模最高可達(dá)百萬億級(jí)別,數(shù)據(jù)集達(dá)到TB量級(jí),且面向多模態(tài)場景(同時(shí)支持文字、圖像、聲音、視頻、觸覺等兩種及以上形態(tài))的大模型已成為趨勢。大模型生態(tài)已初具規(guī)模。
值得期待的是,百度宣布將在2023年3月的某個(gè)時(shí)候推出一項(xiàng)中文名為“文心一言”或英文名為“ERNIE Bot”的ChatGPT式服務(wù)。
新一輪認(rèn)知力延伸的競賽是否又開始了呢?
《Attention Is All You Need》幾位作者的選擇或許有一定的代表性:時(shí)隔5年,8位作者僅有一位還留在谷歌。其中6人選擇創(chuàng)業(yè)或加入創(chuàng)業(yè)公司,還有一位去了OpenAI。
2022年4月26日,一家名為Adept的公司官宣成立,以Ashish Vaswani為首的共同創(chuàng)始人有9位,Ashish Vaswani在南加州大學(xué)拿到博士學(xué)位,師從華人學(xué)者蔣偉和黃亮,主要研究現(xiàn)代深度學(xué)習(xí)在語言建模中的早期應(yīng)用。2016年,他加入了谷歌大腦并領(lǐng)導(dǎo)了Transformer的研究。
Adept是一家致力于用AI來增強(qiáng)人類能力并最終實(shí)現(xiàn)通用智能的公司。在闡述公司創(chuàng)立初衷時(shí),Ashish Vaswani寫道:“在Google,我們訓(xùn)練出了越來越大的Transformer,夢(mèng)想著有朝一日構(gòu)建一個(gè)通用模型來支持所有ML用例。但是,這其中有一個(gè)明顯的局限:用文本訓(xùn)練出的模型可以寫出很棒的文章,但它們無法在數(shù)字世界中采取行動(dòng)。你不能要求GPT-3給你訂機(jī)票,給供應(yīng)商開支票,或者進(jìn)行科學(xué)實(shí)驗(yàn)”。
因此,他們打算創(chuàng)建一個(gè)通用系統(tǒng),“你可以把它想象成你電腦里的一個(gè)overlay,它和你一起工作,使用和你一樣的工具。使用Adept,你能專注于你真正喜歡的工作,并要求模型承擔(dān)其他任務(wù)”。
也許,對(duì)于國內(nèi)大多數(shù)在混沌和近臨界邊緣上沖浪的人來說,都應(yīng)該好好思索一個(gè)問題:“是沿著Transformer和ChatGPT競賽,還是換一個(gè)類似Adept的新賽道呢?”