《自私的基因》讀書筆記：第十三章：合作的策略：一場計算機的競賽

吳小慶

如何在博弈中將主動權(quán)掌握在自己手里？如何由自己來選擇博弈策略，而不只是被動地迎合別人？如何在博弈中采用能獲得最大利益的策略呢？ 這種困惑不僅我們有，所有博弈參與者都有。 從人的本性來說，人都是自私的，一個人做有利于社會及他人的事，是做好事；而做損害他人利益及社會的事，就是做壞事。人做事總是以自己的利益為出發(fā)點，這樣就傾向于做“壞事”！有懷疑嗎？是的，但這確實是真的！！人的自然傾向是“做壞事”。 而從社會博弈論來說，背叛總能取得最大的利益，特別是在他的背叛本能還沒有被大家識破之前，總能得利，選擇的還是做“壞事”。所以從人的本性來講，是無所謂好壞的，是以獲取最大利益為其目的的。 但遺憾的是，你的“合作伙伴”也是這么想的。大家都做壞事，互相損壞，結(jié)果大家都吃虧，合作難以進行。為獲取利益最大化，人們不得不反過來爭做“好人”，而不做“壞人”。因為“做好人”帶來的長遠(yuǎn)利益最大化遠(yuǎn)遠(yuǎn)超過了“做壞人”。做好人帶來的利益是長期的，而做壞人獲得的利益是一過性的。于是人們一方面做著好人，但又時刻準(zhǔn)備著隨時“背叛”，做次壞人。在博弈中，“沒有好壞、只有利益”。 在所有非零和博弈游戲參與者中，他們一部分利益是一致的，另一部分是沖突的，一個策略的有效性不僅取決于這個策略的本身特點，而且取決于當(dāng)它遇到其他策略時它的應(yīng)對性。 世界很快就來到20世紀(jì)后期，大型電子計算機進入臨床應(yīng)用，使超級矩陣計算成為可能。博弈論專家終于有了驗證之地，為了選擇最佳的博弈策略，用計算機設(shè)計了博弈策略方案的競賽。 競賽是循環(huán)進行的，每一個競賽程序都隨機地與其他程序相遇，以相等的概率隨機地選擇合作或背叛。每輪游戲有200次對局，支付矩陣按照“囚徒困境”來設(shè)計： 對雙方合作獎勵每人3分；對雙方背叛每人只給1分；如果一人背叛一人合作，背叛者得5分，而合作者僅得0分。整個循化賽重復(fù)了5次，一共進行了12萬次對局，24萬個不同的選擇。 競賽開始了，來自全世界心理學(xué)、經(jīng)濟學(xué)、數(shù)學(xué)、社會學(xué)、政治學(xué)精英們，共設(shè)計了14個程序參加了比賽，絕大部分程序來自那些博弈論或在“囚徒困境”方面有過深入研究的人員，允許不同學(xué)科的人以相同的語言和規(guī)則進行相互競賽。 14個程序中包含了各種復(fù)雜的策略。競賽的結(jié)果卻使阿克塞爾羅德和其他人大為吃驚，競賽的桂冠居然屬于多倫多大學(xué)心理學(xué)家阿納托·拉帕波特提交上來的，也是其中最簡單的策略：一報還一報（TIT FOR TAT）策略，總得分為504.5分。 比賽的總分是600分，那些善意的程序（指不首先背叛的程序），平均得分在472-504分之間，而那些不善良的程序（常常首先背叛的程序）的平均得分僅401分。比賽的前8名均是善意的程序。 一報還一報策略是這樣的：它總是以合作開局，但從此以后就采取以其人之道還治其人之身的策略（即針鋒相對策略）。也就是說，如對方采取合作策略，就繼續(xù)合作下去；如對方一旦采取背叛策略，就馬上強硬采取背叛策略，決不拖延。 一報還一報的策略實行了胡蘿卜加大棒的原則。胡蘿卜在先，大炮在后。它永遠(yuǎn)不首先背叛對方，從這個意義上來說它是“善意的” 。它會在下一輪中對對手的前一次合作給予回報（哪怕以前這個對手曾經(jīng)背叛過它），而不管對方以前的表現(xiàn)，從這個意義上來說它是“寬容的”。但它一旦遭到背叛就會立即以背叛來懲罰對手前一次的背叛，從這個意義上來說它又是“強硬的”。而且，它的策略極為簡單，針鋒相對，對手一望便知其用意何在，從這個意義來說它又是“簡單明了的”。 因為競賽的結(jié)果太出乎意料了，于是阿克塞爾羅德又組織了第二次競賽，并在競賽前將第一次競賽的結(jié)果公布，即參賽者都知道第一輪“一報還一報”策略贏得了第一輪競賽，一報還一報策略亮相公開。大家驚嘆其策略的簡單、明了。于是圍繞著一報還一報的策略設(shè)計出許多更復(fù)雜、更精細(xì)、更大膽的方案。針對修改過的程序再次進行測試，但這次比賽為無限循環(huán)，沒有人知道最后一步會什么時候到來（這消除了游戲最后一步的影響）。 來自美國、加拿大、英國、挪威、瑞士、新西蘭等6個國家的專家提供了62個程序參加了競賽，63個規(guī)則（包括隨機程序）在循環(huán)賽中有3969個配對，第二次競賽一共進行了上百萬次對局。 在競賽中，許多程序的表現(xiàn)是耐人尋味的，如“檢驗者”程序，經(jīng)常出其不意背叛一下，以求得最大利益，如遇到對手反擊，就趕緊道歉，恢復(fù)合作，以后有機會再不定期背叛。而“鎮(zhèn)定者”程序則是以合作為主，間歇主動背叛，但不會連續(xù)2次，背叛人數(shù)也不超過群體的1/4。其他還有“一報還二報”與“二保還一報”策略。 值得一提的是“哈林頓”程序，這是一個占便宜的程序，也是唯一一位列前15名的非善良程序。一開始就跑在前列，在競爭頭200代以前，它還名列前茅，但到了200代以后，情況發(fā)生了變化，那些不成功的策略紛紛淘汰，這意味著被“哈林頓”占便宜的“冤大頭”也越來越少，但當(dāng)這些老實人都消失以后，“哈林頓”失去了獵物，其命運也與其獵物相同了，到1000代時就完全消失了，正如那些被他消滅的“冤大頭”一樣。 最終，結(jié)果出來了，還是“是一報還一報”策略又一次奪魁。競賽的進程與結(jié)論都是無可爭議的，一開始，“一報還一報”并不是最領(lǐng)先的，但慢慢地，隨著競賽的發(fā)展，其得分越來越靠前，最終奪得勝利，這意味著好人總有好報，具有這種策略的人，最終總會是贏家。 后來，舉辦者又進行了第三次“重復(fù)囚徒困境博弈對抗賽”，這一次并未采取新的程序，而是改變了電腦程序后將第二次參與比賽的63個程序進行了重新比賽。比賽的勝負(fù)不是以得分高低來決定，而是依據(jù)其產(chǎn)生多少后代來決定。到200代時，幾乎所有的狡詐的惡意程序都消失了，“一報還一報策略”仍然表現(xiàn)良好，其他5種“善良而不懦弱”的策略表現(xiàn)也與“一報還一報”一樣表現(xiàn)良好。 到1000代時，策略與環(huán)境都已不能再改變而達到了“進化穩(wěn)定策略（EES）狀態(tài)，當(dāng)所有的欺詐程序都消失后，“一報還一報”和別的善良程序已無法區(qū)分，趨向融合，因為他們?nèi)巧屏嫉模扇『献鞑呗?。難怪道金斯評論說：就是在“自私的基因”控制下，好人仍有好報?！昂萌擞泻脠蟆苯K于有了理論上的依據(jù)。 組織者將這次競賽的所有程序分為三種： 1、善良的程序，在任何時候都不會首先背叛； 2、惡意的程序，會經(jīng)常在你不注意時進行背叛，以求占便宜獲得高分； 3、冤大頭、逆來順受者程序，受到背叛時不會有力反擊者。 在競賽開始的階段，善良的程序并不占先，惡意的程序一路領(lǐng)先，而逆來順受者程序得分最少，遠(yuǎn)遠(yuǎn)落在后面。到競賽中期，逆來順受者程序基本被消滅，而惡意者程序互相遭遇的機會增多，相互背叛的機會增多，得分開始下降。而到了競賽后期，善良的程序開始領(lǐng)先，惡意的程序由于相互背叛增多并受到善良但不懦弱程序的反擊，得分直線下降，最終完全消除。 而在現(xiàn)實中也是如此，最初背叛侵略進攻者，一開始都能獲利匪淺，而那些軟弱的逆來順受者往往最先被消滅。而那些挺過了第一波攻擊，并采取反擊者，則慢慢獲利。隨著時間的推移，那些堅定反擊而不背叛者，獲利則越來越多，而那些背叛侵略者則越來越弱，漸漸消失。最終勝利歸于善良反擊者。 而“一報還一報”策略，又稱“針鋒相對”策略，就是這樣一個策略，始終在競賽中取得勝利，可見這種策略是一個“進化穩(wěn)定策略（EES）”，成功必有其內(nèi)在的原因。這就是原因！拿這個去理解當(dāng)前世界上的爭執(zhí)，戰(zhàn)爭、和平、合作，還有什么不明白的嗎？誰勝誰負(fù)早已確定。（吳小慶）

欧美精品久久性爱|玖玖资源站365|亚洲精品福利无码|超碰97成人人人|超碰在线社区呦呦|亚洲人成社区|亚州欧美国产综合|激情网站丁香花亚洲免费分钟国产|97成人在线视频免费观|亚洲丝袜婷婷

《自私的基因》讀書筆記：第十三章：合作的策略：一場計算機的競賽

吳小慶