<p class="ql-block">2024年12月16日,DeepSeek R1大模型即將推出,梁文鋒罕見地在朋友圈轉(zhuǎn)發(fā)了一篇文章。其評論的那句話豪氣干云,“3年過去了,舊世界分崩離析,新時代正在光速到來。”</p><p class="ql-block">梁文鋒是一位兼具理想主義和創(chuàng)新精神的企業(yè)家。他從量化投資領(lǐng)域積累經(jīng)驗后,全身心投入人工智能大模型的研究探索,目標直指通用人工智能(AGI) ,這種對技術(shù)前沿的執(zhí)著追求令人欽佩。在技術(shù)研發(fā)理念上,他堅信語言大模型是通往AGI的關(guān)鍵路徑,為此專注基礎(chǔ)研究,不急于開展應(yīng)用開發(fā)。</p> <p class="ql-block">梁文鋒是一位兼具理想主義和創(chuàng)新精神的企業(yè)家。他從量化投資領(lǐng)域積累經(jīng)驗后,全身心投入人工智能大模型的研究探索,目標直指通用人工智能(AGI) ,這種對技術(shù)前沿的執(zhí)著追求令人欽佩。在技術(shù)研發(fā)理念上,他堅信語言大模型是通往AGI的關(guān)鍵路徑,為此專注基礎(chǔ)研究,不急于開展應(yīng)用開發(fā)。</p><p class="ql-block">他深知創(chuàng)新的成本高昂且充滿挑戰(zhàn),但依然堅定前行,這種長期主義的眼光和勇氣難能可貴。在人才策略方面,他注重能力、熱愛和好奇心,選用應(yīng)屆及畢業(yè)不久的人才,給予充分自由,營造了開放包容的創(chuàng)新環(huán)境。從商業(yè)視角看,他追求普惠,希望降低大模型使用門檻,打破技術(shù)壟斷。同時,他認為開源是一種文化行為,能吸引人才、推動生態(tài)發(fā)展。盡管面臨高端芯片禁運等難題,他仍堅持不融資,依靠自身力量探索。</p><p class="ql-block">梁文鋒對中國AI發(fā)展有著深刻思考,<b style="color:rgb(22, 126, 251);">指出中國與美國在原創(chuàng)和模仿方面的差距,呼吁中國積極參與全球創(chuàng)新。</b>他的理念和實踐為中國AI行業(yè)提供了新的思路,有望推動中國在全球AI競爭中實現(xiàn)從追隨者到創(chuàng)新者的轉(zhuǎn)變,引領(lǐng)行業(yè)走向更具創(chuàng)造力和競爭力的未來。</p><p class="ql-block">2024年12月16日,DeepSeek R1大模型即將推出,梁文鋒罕見地在朋友圈轉(zhuǎn)發(fā)了一篇文章。其評論的那句話豪氣干云,“3年過去了,舊世界分崩離析,新時代正在光速到來?!?lt;/p> <p class="ql-block">DeepSeek創(chuàng)始人梁文鋒的60條思考:</p><p class="ql-block">?</p><p class="ql-block">1.我們做大模型,跟量化和金融都沒有直接關(guān)系。我們要做的是通用人工智能,也就是AGI。</p><p class="ql-block">2.語言大模型是通往AGI的必經(jīng)之路,并且初步具備了AGI的特征,所以我們從這里開始。</p><p class="ql-block">3.我們不會過早設(shè)計基于模型的一些應(yīng)用,會專注在大模型上。從長期看,大模型應(yīng)用門檻會越來越低,初創(chuàng)公司在未來20年任何時候下場,也都有機會。我們的目標很明確,就是不做垂類和應(yīng)用,而是做研究,做探索。</p><p class="ql-block">4.我們理解人類智能的本質(zhì)就是語言,人的思維就是一個語言的過程。你以為你在思考,其實可能是你在腦子里編織語言。這意味著,在語言大模型上可能誕生出類人的人工智能(AGI)。</p><p class="ql-block"><u>5.只做復(fù)刻的話,可以在公開論文或開源代碼基礎(chǔ)上,只需訓練很少次數(shù),甚至只需finetune(微調(diào))一下,成本很低。而做研究,要做各種實驗和對比,需要更多算力,對人員要求也更高,所以成本更高。</u></p><p class="ql-block">6.我們希望更多人,哪怕一個小App都可以低成本去用上大模型,而不是技術(shù)只掌握在一部分人和公司手中,形成壟斷。大廠的模型,可能會和他們的平臺或生態(tài)捆綁,而我們是完全自由的。</p><p class="ql-block">7.從商業(yè)角度來講,基礎(chǔ)研究是投入回報比很低的。我們比較確定的是,既然我們想做這個事,又有這個能力,這個時間點上,我們就是最合適人選之一。</p><p class="ql-block">8.從最早的1張卡,到2015年的100張卡、2019年的1000張卡,再到一萬張,這個過程是逐步發(fā)生的。很多人會以為這里邊有一個不為人知的商業(yè)邏輯,但其實,主要是好奇心驅(qū)動,對AI能力邊界的好奇。</p><p class="ql-block">9.對很多行外人來說,<span style="color:rgb(22, 126, 251);">ChatGPT</span>這波浪潮沖擊特別大;但對行內(nèi)人來說,2012年<span style="color:rgb(22, 126, 251);">AlexNet</span>帶來的沖擊已經(jīng)引領(lǐng)一個新的時代。AlexNet的錯誤率遠低于當時其他模型,復(fù)蘇了沉睡幾十年的神經(jīng)網(wǎng)絡(luò)研究。雖然具體技術(shù)方向一直在變,但模型、數(shù)據(jù)和算力這三者的組合是不變的,特別是當2020年OpenAI發(fā)布GPT3后,方向很清楚,需要大量算力。那之后,我們有意識地去部署盡可能多的算力。</p><p class="ql-block">10.一件激動人心的事,不能單純用錢衡量。就像家里買鋼琴,一來買得起,二來是因為有一群急于在上面彈奏樂曲的人。</p><p class="ql-block">11.人工成本是對未來的投資,是公司最大的資產(chǎn)。我們選的人相對樸實一點,有好奇心,來我們這里有機會去做研究。大廠很難單純?nèi)プ鲅芯浚鲇柧?,它更多會是業(yè)務(wù)需求驅(qū)動。如果不能很快應(yīng)用,大廠不一定能持續(xù)堅持,因為它更需要看到結(jié)果。</p><p class="ql-block"><u>12.我們招人有條原則是,看能力,而不是看經(jīng)驗。如果追求短期目標,找現(xiàn)成有經(jīng)驗的人是對的。但如果看長遠,經(jīng)驗就沒那么重要,基礎(chǔ)能力、創(chuàng)造性與熱愛等更重要</u>。</p><p class="ql-block">13.我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主。做一件事,有經(jīng)驗的人會不假思索告訴你,應(yīng)該這樣做,但沒有經(jīng)驗的人,會反復(fù)摸索、很認真去想應(yīng)該怎么做,然后找到一個符合當前實際情況的解決辦法。</p><p class="ql-block">14.我們招人的條件是熱愛,這些人的熱情通常會表現(xiàn)出來,因為他真的很想做這件事,所以這些人往往同時也在找你。</p><p class="ql-block">15.我們的考核標準和一般公司不太一樣。我們沒有KPI,也沒有所謂的任務(wù)。</p><p class="ql-block">16.創(chuàng)新需要盡可能少的干預(yù)和管理,讓每個人有自由發(fā)揮的空間和試錯機會。創(chuàng)新往往都是自己產(chǎn)生的,不是刻意安排的,更不是教出來的。我們交給員工重要的事,并且不干預(yù)他。讓他自己想辦法,自己發(fā)揮。</p><p class="ql-block"><u>17.招人時確保價值觀一致,然后通過企業(yè)文化來確保步調(diào)一致。當然,我們并沒有一個成文的企業(yè)文化,因為所有成文的東西,又會阻礙創(chuàng)新。更多時候,是管理者的以身示范,遇到一件事,你如何做決策,會成為一種準則</u>。</p><p class="ql-block">18.按照教科書的方法論來推導(dǎo)創(chuàng)業(yè)公司,在當下,他們做的事,都是活不下來的。但市場是變化的,真正的決定力量往往不是一些現(xiàn)成的規(guī)則和條件,而是一種適應(yīng)和調(diào)整變化的能力。很多大公司的組織結(jié)構(gòu)已經(jīng)不能快速響應(yīng)和快速做事,而且他們很容易讓之前的經(jīng)驗和慣性成為束縛,而這波AI新浪潮之下,一定會有一批新公司誕生。</p><p class="ql-block">19.最讓我們興奮的是去搞清我們的猜想是不是事實,如果是對的,就會很興奮了。</p><p class="ql-block">20.信仰者會之前就在這里,之后也在這里。他們更會去批量<span style="color:rgb(22, 126, 251);">買卡</span>,或者跟云廠商簽長協(xié)議,而不是短期去租。</p><p class="ql-block">21.創(chuàng)新是昂貴且低效的,有時候伴隨著浪費。所以經(jīng)濟發(fā)展到一定程度之后,才能夠出現(xiàn)創(chuàng)新。很窮的時候,或者不是創(chuàng)新驅(qū)動的行業(yè),成本和效率非常關(guān)鍵。OpenAI也是燒了很多錢才出來的。</p><p class="ql-block">22.這個世界存在很多無法用邏輯解釋的事,就像很多程序員,也是開源社區(qū)的瘋狂貢獻者,一天很累了,還要去貢獻代碼。類似你徒步50公里,整個身體是癱掉的,但精神很滿足。</p><p class="ql-block">23.不是所有人都能瘋狂一輩子,但大部分人,在他年輕的那些年,可以完全沒有功利目的,投入地去做一件事。</p><p class="ql-block">24.我們的大模型服務(wù)降價只是按照自己的步調(diào)來做事,然后核算成本定價。我們的原則是不貼錢,也不賺取暴利,在成本之上稍微有點利潤。</p><p class="ql-block">25.搶用戶并不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結(jié)構(gòu)中,成本先降下來了,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。</p><p class="ql-block">26.如果目標是做應(yīng)用,那沿用Llama結(jié)構(gòu),短平快上產(chǎn)品也是合理選擇。但我們的目的地是AGI,這意味著我們需要研究新的模型結(jié)構(gòu),在有限資源下,實現(xiàn)更強的模型能力。這是scale up到更大模型所需要做的基礎(chǔ)研究之一。除了模型結(jié)構(gòu),我們還做了大量其他的研究,包括怎么構(gòu)造數(shù)據(jù),如何讓模型更像人類等,這都體現(xiàn)在我們發(fā)布的模型里。</p><p class="ql-block">27.最重要的是參與到全球創(chuàng)新的浪潮里去。過去很多年,中國公司習慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當然。這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術(shù)的前沿,去推動整個生態(tài)發(fā)展。</p><p class="ql-block">28.隨著經(jīng)濟發(fā)展,中國也要逐步成為貢獻者,而不是一直搭便車。過去三十多年IT浪潮里,我們基本沒有參與到真正的技術(shù)創(chuàng)新里。我們已經(jīng)習慣摩爾定律從天而降,躺在家里18個月就會出來更好的硬件和軟件。但其實,這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來的,只因為之前我們沒有參與這個過程,以至于忽視了它的存在。</p><p class="ql-block">29.大部分中國公司習慣follow,而不是創(chuàng)新。</p><p class="ql-block">30.創(chuàng)新的成本肯定不低,過去那種拿來主義的慣例和過去的國情有關(guān)。但現(xiàn)在,無論中國的經(jīng)濟體量,還是字節(jié)、騰訊這些大廠的利潤,放在全球都不低。我們創(chuàng)新缺的不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實現(xiàn)有效的創(chuàng)新。</p><p class="ql-block">31.過去三十年,我們都只強調(diào)賺錢,對創(chuàng)新是忽視的。創(chuàng)新不完全是商業(yè)驅(qū)動的,還需要好奇心和創(chuàng)造欲。我們只是被過去那種慣性束縛了,但它也是階段性的。</p><p class="ql-block">32.在顛覆性的技術(shù)面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。所以我們把價值沉淀在團隊上,我們的同事在這個過程中得到成長,積累很多know-how,形成可以創(chuàng)新的組織和文化,這就是我們的護城河。</p><p class="ql-block">33.開源,發(fā)論文,并沒有失去什么。對于技術(shù)人員來說,被follow是很有成就感的事。開源更像一個文化行為,而非商業(yè)行為。給予是一種額外的榮譽,一個公司這么做也會有文化的吸引力。</p><p class="ql-block">34.美國最賺錢的公司,都是厚積薄發(fā)的高科技公司。</p><p class="ql-block">35.中國AI和美國真實的gap是原創(chuàng)和模仿的差距。如果這個不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。</p><p class="ql-block">36.英偉達的領(lǐng)先,不只是一個公司的努力,而是整個西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。他們能看到下一代的技術(shù)趨勢,手里有路線圖。中國AI的發(fā)展,同樣需要這樣的生態(tài)。很多國產(chǎn)芯片發(fā)展不起來,是因為缺乏配套的技術(shù)社區(qū),只有第二手消息,所以中國必然需要有人站到技術(shù)的前沿。</p><p class="ql-block">37.我們不會閉源,我們認為先有一個強大的技術(shù)生態(tài)更重要。</p><p class="ql-block">38.我們短期內(nèi)沒有融資計劃,我們面臨的問題從來不是錢,而是高端芯片被禁運。</p><p class="ql-block">39.更多的投入并不一定產(chǎn)生更多的創(chuàng)新,否則大廠可以把所有的創(chuàng)新包攬了。</p><p class="ql-block">40.我們認為當前階段是技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期。長遠來說,我們希望形成一種生態(tài),就是業(yè)界直接使用我們的技術(shù)和產(chǎn)出,我們只負責基礎(chǔ)模型和前沿的創(chuàng)新,然后其它公司在DeepSeek的基礎(chǔ)上構(gòu)建toB、toC的業(yè)務(wù)。如果能形成完整的產(chǎn)業(yè)上下游,我們就沒必要自己做應(yīng)用。</p><p class="ql-block">41.如果需要,我們做應(yīng)用也沒障礙,但研究和技術(shù)創(chuàng)新永遠是我們第一優(yōu)先級。</p><p class="ql-block">42.技術(shù)沒有秘密,但重置需要時間和成本。英偉達的顯卡,理論上沒有任何技術(shù)秘密,很容易復(fù)制,但重新組織團隊以及追趕下一代技術(shù)都需要時間,所以實際的護城河還是很寬。</p><p class="ql-block">43.提供云服務(wù)不是我們的主要目標,我們的目標是去實現(xiàn)AGI。</p><p class="ql-block">44.大廠有現(xiàn)成的用戶,但它的現(xiàn)金流業(yè)務(wù)也是它的包袱,也會讓它成為隨時被顛覆的對象。</p><p class="ql-block">45.大模型創(chuàng)業(yè)公司可能活下來2到3家?,F(xiàn)在都還處在燒錢階段,那些自我定位清晰、更能精細化運營的,更有機會活下來。其它公司可能會脫胎換骨。有價值的東西不會煙消云散,但會換一種方式。</p><p class="ql-block">46.我經(jīng)常思考的是,一個東西能不能讓社會的運行效率變高,以及你能否在它的產(chǎn)業(yè)分工鏈條上找到擅長的位置。只要終局是讓社會效率更高,就是成立的。中間很多都是階段性的,過度關(guān)注必然眼花繚亂。</p><p class="ql-block">47.我們發(fā)布的V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但我們能自己打造這樣的人。</p><p class="ql-block">48.DeepSeek也全是自下而上的。而且我們一般不前置分工,而是自然分工。每個人有自己獨特的成長經(jīng)歷,都是自帶想法的,不需要push他。探索過程中,他遇到問題,自己就會拉人討論。不過當一個idea顯示出潛力,我們也會自上而下地去調(diào)配資源。</p><p class="ql-block">49.我們每個人對于卡和人的調(diào)動是不設(shè)上限的。如果有想法,每個人隨時可以調(diào)用訓練集群的卡無需審批,同時因為不存在層級和跨部門,也可以靈活調(diào)用所有人,只要對方也有興趣。</p><p class="ql-block">50.我們選人的標準一直都是熱愛和好奇心,所以很多人會有一些奇特的經(jīng)歷,很有意思。很多人對做研究的渴望,遠超對錢的在意。</p><p class="ql-block">51.創(chuàng)新首先是一個信念問題。為什么硅谷那么有創(chuàng)新精神?首先是敢。Chatgpt出來時,整個國內(nèi)對做前沿創(chuàng)新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應(yīng)用吧。但創(chuàng)新首先需要自信,這種信心通常在年輕人身上更明顯。</p><p class="ql-block">52.我們在做最難的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題。其實,頂尖人才在中國是被低估的。因為整個社會層面的硬核創(chuàng)新太少了,使得他們沒有機會被識別出來。我們在做最難的事,對他們是有吸引力的。</p><p class="ql-block">53.OpenAI不是神,不可能一直沖在前面。</p><p class="ql-block">54.AGI可能是2年、5年或者10年,總之會在我們有生之年實現(xiàn)。至于路線圖,即使在我們公司內(nèi)部,也沒有統(tǒng)一意見。但我們確實押注了三個方向:一是數(shù)學和代碼,二是多模態(tài),三是自然語言本身。數(shù)學和代碼是AGI天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統(tǒng),有可能通過自我學習就能實現(xiàn)很高的智能。另一方面,多模態(tài)、參與到人類的真實世界里學習,對AGI也是必要的。我們對一切可能性都保持開放。</p><p class="ql-block">55.未來會有專門公司提供基礎(chǔ)模型和基礎(chǔ)服務(wù),會有很長鏈條的專業(yè)分工。更多人在之上去滿足整個社會多樣化的需求。</p><p class="ql-block">56.我主要的精力在研究下一代的大模型,還有很多未解決的問題。</p><p class="ql-block">57.所有的套路都是上一代的產(chǎn)物,未來不一定成立。拿互聯(lián)網(wǎng)的商業(yè)邏輯去討論未來AI的盈利模式,就像馬化騰創(chuàng)業(yè)時,你去討論通用電氣和可口可樂一樣,很可能是一種刻舟求劍。</p><p class="ql-block">58.我們經(jīng)歷了一個漫長的積累過程,外部看到的是幻方2015年后的部分,但其實我們做了16年。</p><p class="ql-block">59.未來中國產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,會更依賴硬核技術(shù)的創(chuàng)新。當很多人發(fā)現(xiàn)過去賺快錢很可能來自時代運氣,就會更愿意俯身去做真正的創(chuàng)新。</p><p class="ql-block">60.未來硬核創(chuàng)新會越來越多,現(xiàn)在還不容易被理解,是因為整個社會群體需要被事實教育。當這個社會讓硬核創(chuàng)新的人功成名就,群體性想法就會改變,我們只是還需要一堆事實和一個過程。</p> <p class="ql-block">梁文鋒為文藝復(fù)興科技公司創(chuàng)始人、“量化之王”詹姆斯·西蒙斯(James Simons)的傳記《征服市場的人:西蒙斯傳》一書寫過序言。序言的最末寫著,<b style="color:rgb(22, 126, 251);">“每當在工作中遇到困難的時候,我會想起西蒙斯的話:‘一定有辦法對價格建模?!?lt;/b></p><p class="ql-block"><br></p><p class="ql-block">? <b> 《創(chuàng)造理解市場的模型》</b></p><p class="ql-block">? 文/梁文鋒 幻方量化創(chuàng)始人</p><p class="ql-block">?</p><p class="ql-block">詹姆斯·西蒙斯是量化投資領(lǐng)域的泰斗。一直以來,外界對西蒙斯和他所創(chuàng)建的文藝復(fù)興科技公司所知不多。但這絲毫不影響無數(shù)年輕人在西蒙斯的故事的激勵下,進入這個神秘的行業(yè)。和很多新技術(shù)一樣,量化投資剛出現(xiàn)的時候也是被嘲笑的對象,沒有人相信計算機可以像人類一樣進行投資。但西蒙斯卻敏銳地預(yù)見到,隨著計算機技術(shù)的發(fā)展,終有一天“不可能”將會變成現(xiàn)實。西蒙斯在早期做了諸多嘗試,都不太成功,但他并未放棄,他相信時間是站在他這邊的。</p><p class="ql-block">西蒙斯是幸運的,他遇到了好的時代。到了20世紀80年代末,計算機軟硬件的發(fā)展到達了一個臨界點,人們開始構(gòu)建真正實用的模型,并在某些投資細分領(lǐng)域取得了初步成功。</p><p class="ql-block">在1988年西蒙斯設(shè)立大獎?wù)禄饡r,他已經(jīng)50歲了,在投資上經(jīng)歷了10余年的挫折,但這一次他抓住了機會,登上了通往新時代的列車。</p><p class="ql-block">如今華爾街很多量化巨頭的崛起,都可以追溯至這一時期。西蒙斯和其他先驅(qū)者,使用現(xiàn)在看起來并不復(fù)雜的技術(shù),迅速摘掉了市場上最低垂的果實,積累了第一桶資金。</p><p class="ql-block">這只是開始,在之后的30余年里,計算機技術(shù)繼續(xù)發(fā)展,量化投資正逐漸發(fā)展成資本市場中的一個新寵,不斷有新的模型被開發(fā)出來,更多的“不可能”變成了現(xiàn)實,最終使量化投資在21世紀成為金融領(lǐng)域發(fā)展的大勢所趨。</p><p class="ql-block">在這個過程中,文藝復(fù)興科技公司在西蒙斯的帶領(lǐng)下,始終站在時代的潮頭,成為行業(yè)的標桿。</p><p class="ql-block">文藝復(fù)興科技公司輝煌的30余年,同時也是金融市場監(jiān)管愈發(fā)嚴格、透明化的30余年。很早的時候,基金經(jīng)理可以從公司管理層獲得更多信息,從而取得交易優(yōu)勢。但諸如此類的不公平問題在過去30余年逐步得到了解決。</p><p class="ql-block">在信息化時代,金融市場是公平和透明的,人類基金經(jīng)理和計算機模型站在同樣的起跑線上,這進一步為量化投資的大范圍成功掃清了障礙。</p><p class="ql-block">為何恰好是這30余年,金融變得公平和透明了呢?這在某種程度上還是得益于計算機技術(shù)的發(fā)展。在西蒙斯即將退休之際,本書的出版,為我們揭開了很多之前未解的疑團,也為我們帶來了豐富的可供借鑒的經(jīng)驗。</p><p class="ql-block">國外的模式未必能照搬到中國,但閱讀本書,可以讓我們收獲很多的思考和啟發(fā)。是什么樣的特質(zhì)和機遇,使西蒙斯成為歷史的幸運兒?如何管理一支優(yōu)秀的團隊,使之30余年立于不敗之地?為什么科技會使金融市場產(chǎn)生如此深刻的變化?讀者可以從本書中尋找答案。作為后輩,能為西蒙斯的中文版?zhèn)饔涀餍颍腋械绞謽s幸。每當在工作中遇到困難的時候,我會想起西蒙斯的話:“一定有辦法對價格建模。”(本文完)</p>