<p class="ql-block"> 如何在博弈中將主動權(quán)掌握在自己手里?如何由自己來選擇博弈策略,而不只是被動地迎合別人?如何在博弈中采用能獲得最大利益的策略呢?</p><p class="ql-block" style="text-align: justify;"> 這種困惑不僅我們有,所有博弈參與者都有。</p> <p class="ql-block"> 從人的本性來說,人都是自私的,一個人做有利于社會及他人的事,是做好事;而做損害他人利益及社會的事,就是做壞事。人做事總是以自己的利益為出發(fā)點,這樣就傾向于做“壞事”!有懷疑嗎?是的,但這確實是真的!!人的自然傾向是“做壞事”。</p><p class="ql-block"> 而從社會博弈論來說,背叛總能取得最大的利益,特別是在他的背叛本能還沒有被大家識破之前,總能得利,選擇的還是做“壞事”。所以從人的本性來講,是無所謂好壞的,是以獲取最大利益為其目的的。</p><p class="ql-block"> </p> <p class="ql-block"> 但遺憾的是,你的“合作伙伴”也是這么想的。大家都做壞事,互相損壞,結(jié)果大家都吃虧,合作難以進行。為獲取利益最大化,人們不得不反過來爭做“好人”,而不做“壞人”。因為“做好人”帶來的長遠(yuǎn)利益最大化遠(yuǎn)遠(yuǎn)超過了“做壞人”。做好人帶來的利益是長期的,而做壞人獲得的利益是一過性的。于是人們一方面做著好人,但又時刻準(zhǔn)備著隨時“背叛”,做次壞人。在博弈中,“沒有好壞、只有利益”。</p><p class="ql-block" style="text-align: justify;"> 在所有非零和博弈游戲參與者中,他們一部分利益是一致的,另一部分是沖突的,一個策略的有效性不僅取決于這個策略的本身特點,而且取決于當(dāng)它遇到其他策略時它的應(yīng)對性。</p> <p class="ql-block" style="text-align: justify;"> 世界很快就來到20世紀(jì)后期,大型電子計算機進入臨床應(yīng)用,使超級矩陣計算成為可能。博弈論專家終于有了驗證之地,為了選擇最佳的博弈策略,用計算機設(shè)計了博弈策略方案的競賽。</p><p class="ql-block" style="text-align: justify;"> 競賽是循環(huán)進行的,每一個競賽程序都隨機地與其他程序相遇,以相等的概率隨機地選擇合作或背叛。每輪游戲有200次對局,支付矩陣按照“囚徒困境”來設(shè)計:</p><p class="ql-block" style="text-align: justify;"> 對雙方合作獎勵每人3分;對雙方背叛每人只給1分;如果一人背叛一人合作,背叛者得5分,而合作者僅得0分。整個循化賽重復(fù)了5次,一共進行了12萬次對局,24萬個不同的選擇。</p> <p class="ql-block" style="text-align: justify;"> 競賽開始了,來自全世界心理學(xué)、經(jīng)濟學(xué)、數(shù)學(xué)、社會學(xué)、政治學(xué)精英們,共設(shè)計了14個程序參加了比賽,絕大部分程序來自那些博弈論或在“囚徒困境”方面有過深入研究的人員,允許不同學(xué)科的人以相同的語言和規(guī)則進行相互競賽。</p><p class="ql-block" style="text-align: justify;"> 14個程序中包含了各種復(fù)雜的策略。競賽的結(jié)果卻使阿克塞爾羅德和其他人大為吃驚,競賽的桂冠居然屬于多倫多大學(xué)心理學(xué)家阿納托·拉帕波特提交上來的,也是其中最簡單的策略:一報還一報(TIT FOR TAT)策略,總得分為504.5分。</p><p class="ql-block" style="text-align: justify;"> 比賽的總分是600分,那些善意的程序(指不首先背叛的程序),平均得分在472-504分之間,而那些不善良的程序(常常首先背叛的程序)的平均得分僅401分。比賽的前8名均是善意的程序。</p> <p class="ql-block" style="text-align: justify;"> 一報還一報策略是這樣的:它總是以合作開局,但從此以后就采取以其人之道還治其人之身的策略(即針鋒相對策略)。也就是說,如對方采取合作策略,就繼續(xù)合作下去;如對方一旦采取背叛策略,就馬上強硬采取背叛策略,決不拖延。</p><p class="ql-block" style="text-align: justify;"> 一報還一報的策略實行了胡蘿卜加大棒的原則。胡蘿卜在先,大炮在后。它永遠(yuǎn)不首先背叛對方,從這個意義上來說它是“善意的” 。它會在下一輪中對對手的前一次合作給予回報(哪怕以前這個對手曾經(jīng)背叛過它),而不管對方以前的表現(xiàn),從這個意義上來說它是“寬容的”。但它一旦遭到背叛就會立即以背叛來懲罰對手前一次的背叛,從這個意義上來說它又是“強硬的”。而且,它的策略極為簡單,針鋒相對,對手一望便知其用意何在,從這個意義來說它又是“簡單明了的”。</p> <p class="ql-block" style="text-align: justify;"> 因為競賽的結(jié)果太出乎意料了,于是阿克塞爾羅德又組織了第二次競賽,并在競賽前將第一次競賽的結(jié)果公布,即參賽者都知道第一輪“一報還一報”策略贏得了第一輪競賽,一報還一報策略亮相公開。大家驚嘆其策略的簡單、明了。于是圍繞著一報還一報的策略設(shè)計出許多更復(fù)雜、更精細(xì)、更大膽的方案。針對修改過的程序再次進行測試,但這次比賽為無限循環(huán),沒有人知道最后一步會什么時候到來(這消除了游戲最后一步的影響)。</p><p class="ql-block" style="text-align: justify;"> 來自美國、加拿大、英國、挪威、瑞士、新西蘭等6個國家的專家提供了62個程序參加了競賽,63個規(guī)則(包括隨機程序)在循環(huán)賽中有3969個配對,第二次競賽一共進行了上百萬次對局。</p><p class="ql-block" style="text-align: justify;"> 在競賽中,許多程序的表現(xiàn)是耐人尋味的,如“檢驗者”程序,經(jīng)常出其不意背叛一下,以求得最大利益,如遇到對手反擊,就趕緊道歉,恢復(fù)合作,以后有機會再不定期背叛。而“鎮(zhèn)定者”程序則是以合作為主,間歇主動背叛,但不會連續(xù)2次,背叛人數(shù)也不超過群體的1/4。其他還有“一報還二報”與“二保還一報”策略。</p><p class="ql-block" style="text-align: justify;"> </p> <p class="ql-block"> 值得一提的是“哈林頓”程序,這是一個占便宜的程序,也是唯一一位列前15名的非善良程序。一開始就跑在前列,在競爭頭200代以前,它還名列前茅,但到了200代以后,情況發(fā)生了變化,那些不成功的策略紛紛淘汰,這意味著被“哈林頓”占便宜的“冤大頭”也越來越少,但當(dāng)這些老實人都消失以后,“哈林頓”失去了獵物,其命運也與其獵物相同了,到1000代時就完全消失了,正如那些被他消滅的“冤大頭”一樣。</p><p class="ql-block" style="text-align: justify;"> 最終,結(jié)果出來了,還是“是一報還一報”策略又一次奪魁。競賽的進程與結(jié)論都是無可爭議的,一開始,“一報還一報”并不是最領(lǐng)先的,但慢慢地,隨著競賽的發(fā)展,其得分越來越靠前,最終奪得勝利,<b>這意味著好人總有好報</b>,具有這種策略的人,最終總會是贏家。</p> <p class="ql-block" style="text-align: justify;"> 后來,舉辦者又進行了第三次“重復(fù)囚徒困境博弈對抗賽”,這一次并未采取新的程序,而是改變了電腦程序后將第二次參與比賽的63個程序進行了重新比賽。比賽的勝負(fù)不是以得分高低來決定,而是依據(jù)其產(chǎn)生多少后代來決定。到200代時,幾乎所有的狡詐的惡意程序都消失了,“一報還一報策略”仍然表現(xiàn)良好,其他5種“善良而不懦弱”的策略表現(xiàn)也與“一報還一報”一樣表現(xiàn)良好。</p><p class="ql-block" style="text-align: justify;"> 到1000代時,策略與環(huán)境都已不能再改變而達到了“進化穩(wěn)定策略(EES)狀態(tài),當(dāng)所有的欺詐程序都消失后,“一報還一報”和別的善良程序已無法區(qū)分,趨向融合,因為他們?nèi)巧屏嫉模扇『献鞑呗?。難怪道金斯評論說:就是在“自私的基因”控制下,好人仍有好報?!昂萌擞泻脠蟆苯K于有了理論上的依據(jù)。</p> <p class="ql-block" style="text-align: justify;"> 組織者將這次競賽的所有程序分為三種:</p><p class="ql-block" style="text-align: justify;"> 1、善良的程序,在任何時候都不會首先背叛;</p><p class="ql-block" style="text-align: justify;"> 2、惡意的程序,會經(jīng)常在你不注意時進行背叛,以求占便宜獲得高分; </p><p class="ql-block" style="text-align: justify;"> 3、冤大頭、逆來順受者程序,受到背叛時不會有力反擊者。</p><p class="ql-block" style="text-align: justify;"> 在競賽開始的階段,善良的程序并不占先,惡意的程序一路領(lǐng)先,而逆來順受者程序得分最少,遠(yuǎn)遠(yuǎn)落在后面。到競賽中期,逆來順受者程序基本被消滅,而惡意者程序互相遭遇的機會增多,相互背叛的機會增多,得分開始下降。而到了競賽后期,善良的程序開始領(lǐng)先,惡意的程序由于相互背叛增多并受到善良但不懦弱程序的反擊,得分直線下降,最終完全消除。</p> <p class="ql-block" style="text-align: justify;"> 而在現(xiàn)實中也是如此,最初背叛侵略進攻者,一開始都能獲利匪淺,而那些軟弱的逆來順受者往往最先被消滅。而那些挺過了第一波攻擊,并采取反擊者,則慢慢獲利。隨著時間的推移,那些堅定反擊而不背叛者,獲利則越來越多,而那些背叛侵略者則越來越弱,漸漸消失。最終勝利歸于善良反擊者。</p><p class="ql-block" style="text-align: justify;"> 而“一報還一報”策略,又稱“針鋒相對”策略,就是這樣一個策略,始終在競賽中取得勝利,可見這種策略是一個“<b>進化穩(wěn)定策略(EES)</b>”,成功必有其內(nèi)在的原因。這就是原因!拿這個去理解當(dāng)前世界上的爭執(zhí),戰(zhàn)爭、和平、合作,還有什么不明白的嗎?誰勝誰負(fù)早已確定。(吳小慶)</p>