โป๊กเกอร์ กับ Game Theory
เกมโป๊กเกอร์มีพัฒนาการตลอดหลายสิบปีที่ผ่านมา จากในยุคแรกที่นักโป๊กเกอร์เน้นจิตวิทยาและการอ่านใจโดยสังเกตจากพฤติกรรม (Read poker Tells) แปรเปลี่ยนไปเป็นการใช้คณิตศาสตร์ความน่าจะเป็นในการเล่น (Probability)
ยุคถัดมาเป็นเรื่องของการผสมผสานคณิตศาสตร์เข้ากับการอ่านใจที่เรียกกันว่า Exploitative Play ยกตัวอย่างเช่น ปกติแล้วช่วง Preflop คนมักจะ raise กันในช่วง 3BB ปรากฏว่าคู่แข่งเราดัน raise ที่ 5BB นักเล่นแบบ Exploitative Play จะเริ่มจับพฤติกรรมได้แล้วว่า คนนี้ต้องมีไพ่ที่แข็งมากๆ (AA, KK, QQ หรือ AK อะไรประมาณนี้)
แล้วหลังเปิด Flop สมมติว่าไพ่ออกมาเป็น 4♠️ 8♣️ 3♦️ ปรากฏว่าคู่แข่งดัน raise น้อยลง หรือแค่ call ตอนนี้คุณ exploit ได้แทบจะทันทีเลยว่า เค้าไม่น่ามีไพ่คู่แน่ๆ
เมื่อคาดเดา Hand Range ของคู่แข่งได้ ที่เหลือ คุณก็เลือกที่จะเล่นได้หลากหลายขึ้นทันที เช่น ถ้าคุณมี K♥️ 8♥️ คุณก็สามารถเลือกที่จะโจมตีด้วยการ raise ที่ทำให้ Pot Odd หนักเกินกว่าที่คู่ต่อสู้จะกล้าเสี่ยง call ทั้งๆ ที่ตัวเองไม่มีอะไรในมือ
ดังนั้นการคาดการณ์ Hand Range ของคู่แข่งคือความได้เปรียบอย่างมหาศาล
แต่ Exploitative Play ก็เป็นกลยุทธ์การเล่นที่มีจุดอ่อน นั่นคือเมื่อผู้เล่นโจมตีคู่แข่งด้วยจุดอ่อนของคู่แข่งทุกครั้งที่มีโอกาส ในทางกลับกันย่อมทำให้คู่แข่งจับพฤติกรรมของผู้เล่นได้ ยกตัวอย่างง่ายๆ เหมือนกับว่าถ้าคุณเล่นเป่ายิ้งฉุบแล้ว exploit ได้ว่าคู่แข่งออกค้อนบ่อยเป็นพิเศษ คุณก็จะออกกระดาษมากเป็นพิเศษ
ซึ่งการออกกระดาษมากเป็นพิเศษของคุณ ในทางกลับกันก็จะทำให้คู่แข่งสังเกตได้ ดังนั้นเค้าก็จะพยายามออกกรรไกรมากขึ้น ทำให้พฤติกรรมที่เค้าเคยออกค้อนบ่อยๆ นั้นเปลี่ยนไป
หัวใจสำคัญของวิวัฒนาการในการเล่นโป๊กเกอร์ในยุคหลังนี้จึงเป็นแนวคิดการแก้ปัญหาของ Exploitative Play นั่นคือการใช้ Game Theory เข้ามาเสริม
แนวคิดหลักๆ ของ Game Theory นั้นตรงข้ามกับ Exploitative Play นั่นคือ การพยายามสร้างกลยุทธ์ที่ไม่เปิดโอกาสให้คู่ต่อสู้ exploit พฤติกรรมของเราได้
แต่หลายคนก็ยังสงสัยว่า อ้าว แล้วไอ้ที่ว่ามานี่ มันเกี่ยวกับ Game Theory ยังไง..? ผมจะมาเล่าแนวคิดพื้นฐานของ Game Theory ให้ฟังกันครับ
ทฤษฏีเกม (Game Theory) คืออะไร
ทฤษฏีเกม (Game Theory) เป็นการจำลองสถานการณ์ทางกลยุทธ์ ซึ่งความสำเร็จในการตัดสินใจของผู้เล่นเกมขึ้นอยู่กับทางเลือกของผู้เล่นคนอื่น เป้าหมายก็คือหาทางได้รับผลตอบแทนให้ได้มากที่สุดจากกติกาของเกมนั้นๆ
ทฤษฎีเกมมีการใช้ในทางสังคมศาสตร์ เศรษฐศาสตร์ การเมืองระหว่างประเทศ (สงครามเย็นเป็นผลลัพธ์ที่เด่นชัดมากของทฤษฏีเกมที่รัสเซียกับอเมริกาใช้คานอำนาจซึ่งกันและกัน)
ผมจะยกตัวอย่างให้ฟังแบบง่ายๆ ด้วยตัวอย่างคลาสสิกที่ชื่อว่า Prisoners’ Dilemma
สมมติว่า ตู่ และติ๊ก เป็นโจรสองคนที่ถูกจับกรณีปล้นฆ่าชิงทรัพย์ ตำรวจจับตู่และติ๊กได้ หลักฐานชัดเจนว่าคนใดคนหนึ่งที่เป็นฆาตกร
ตำรวจจับแยกทั้งสองคนไปอยู่คนละห้องสอบสวน และกำหนดโทษดังนี้
ถ้าตู่และติ๊กต่างเงียบ ตำรวจจะไม่มีหลักฐานเอาผิด ทั้งคู่จะติดคุกแค่ 1 ปี
แต่ถ้าคนใดคนหนึ่งเงียบ แต่อีกคนหนึ่งกลับทรยศด้วยโยนความผิดให้อีกฝ่าย คนที่เงียบจะต้องติดคุก 10 ปี ส่วนคนที่โยนความผิดจะรอดพ้นคดีไปได้ไม่ต้องติดคุก
แต่ถ้าต่างฝ่ายต่างโยนความผิดให้อีกฝ่าย ทั้งคู่จะต้องติดคุกคนละ 3 ปี
ถ้าคุณเป็นตู่ คุณมีทางเลือกอย่างไรบ้างครับ..?
แน่นอนว่าสิ่งที่ดีที่สุดที่จะเป็นไปได้สำหรับทั้งคู่ก็คือ ต่างฝ่ายต่างเงียบ เพราะพวกคุณจะติดคุกกันเพียงแค่หนึ่งปีก่อนจะออกมาปล้นฆ่าประชาชนได้ใหม่อีกรอบ
แต่คำถามคือคุณไว้ใจติ๊กได้แค่ไหน เพราะถ้าคุณเงียบ แต่ติ๊กดันหักหลังแล้วโยนความผิดให้คุณเข้า คุณจะต้องติดคุก 10 ปีทันที โดยติ๊กเดินลอยชายออกจากคุกแบบชิลล์ๆ
ดังนั้น ถ้าคิดแบบปลอดภัยที่สุดในกรณีที่คุณไม่เชื่อใจติ๊กแล้ว สุดท้ายคุณจะตัดสินใจเลือกที่จะโยนความผิดให้ติ้ก เพราะในทางที่ดีที่สุด ทั้งคู่จะติดคุกแค่ 3 ปี แต่ถ้าโชคดี ติ๊กดันเงียบ คุณอาจจะฟลุ๊ครอดคุกไปได้แบบไม่คาดคิดก็เป็นได้
ทางเลือกที่ดีที่สุดที่คุณจะเงียบทั้งคู่ เรียกกันว่ากลยุทธ์เด่น (Optimal Strategy) ครับ คือกลยุทธ์เด่น เป็นสิ่งที่ผู้เล่นทุกฝ่ายจะได้รับผลตอบแทนที่ดีที่สุดเท่าที่จะเป็นไปได้ในเกมนั้นๆ (คือติดคุกแค่ 1 ปี)
แต่สิ่งนี้มักจะไม่เกินขึ้น เพราะคุณไม่ไว้ใจกัน ในทฤษฏีเกมแบบไม่มีการสมคบคิด ผู้เล่นทุกคนไม่ใช่มิตร ต่างฝ่ายต่างต้องการหาผลตอบแทนที่ดีที่สุดสำหรับตัวเองเสมอ
จึงเป็นที่มาของการใส่ร้ายฝ่ายตรงข้ามทั้งคู่ ณ จุดนี้การโยนความผิดแม้ไม่ใช่ทางออกที่ดีที่สุด แต่เป็นทางออกที่ปลอดภัยที่สุดที่เป็นไปได้ เรียกกันว่าจุดดุลยภาพของแนช (Nash’s Equilibrium) ซึ่งตั้งตามกฏของศาสตราจารย์ John Nash นักคณิตศาสตร์ผู้ล่วงลับผู้ต่อยอดทฤษฏีเกมจนได้รับการยอมรับไปทั่วโลก (ลองดูชีวประวัติของ John Nash ได้จากภาพยนตร์ยอดเยี่ยมที่ได้รางวัลออสการ์ชื่อ A Beautiful Mind)
หัวใจของ Nash’s Equilibrium คือกลยุทธ์ที่ไม่ได้ให้ผลตอบแทนสูงสุด แต่เป็นกลยุทธ์ที่ปลอดภัยที่สุด นั่นคือผลตอบแทนของคุณไม่ได้ขึ้นกับทางเลือกของคู่ต่อสู้
แต่ผมเล่ามาตั้งนาน แล้วทฤษฏีเกมนี้มันไปเกี่ยวอะไรกับเกมโป๊กเกอร์ล่ะ..?
หัวใจสำคัญอยู่ตรงนี้ครับ เนื่องจากทั้งตู่และติ๊กไม่มีข้อมูลของกันและกัน เนื่องจากอยู่คนละห้อง แปลว่าไม่สามารถ exploit พฤติกรรมของฝ่ายตรงข้ามได้เลย สิ่งที่พวกเขาเลือก คือ เลือกทางที่ปลอดภัยไว้ก่อน นั่นก็คือ การโยนความผิดให้อีกฝ่าย
ซึ่งผมบอกไปแล้วว่ามันคือ Nash’s Equilibrium ซึ่งไม่ไช่กลยุทธ์ที่ได้ reward สูงสุดแน่นอน มันเป็นเพียงกลยุทธ์ที่ปลอดภัยที่สุดในกรณีที่คุณไม่สามารถ exploit ฝ่ายตรงข้ามได้
ถ้าคุณเล่นโป๊กเกอร์โดยใช้ Nash’s Equilibrium นั่นคือ การเลือกกลยุทธ์ที่ทำให้ฝ่ายตรงข้าม exploit คุณไม่ได้ และไม่ว่าฝ่ายตรงข้ามจะเดินเกมแบบไหน จะไม่ทำให้คุณเสียเปรียบ ในระยะยาวคุณจะไม่มีทางแพ้ไม่ว่าคู่ต่อสู้ของคุณจะเลือกกลยุทธ์แบบไหนก็ตาม แต่คุณจะไม่มีทางทำกำไรได้ดีแน่
การเลือกกลยุทธ์แบบ Nash’s Equilibrium เป็นการเล่นเกมรับ ที่จะการันตีว่าคุณจะไม่หมดตัว ถูกเรียกกันในวงการโป๊กเกอร์ว่า Game Theory Optimal (GTO)
เปลี่ยนจากการเล่นเชิงรับ (GTO) ไปสู่การเล่นเชิงรุก (Exploitative Play)
แต่หลังจากที่คุณปกป้องเงินของคุณได้แล้ว สิ่งที่ต้องทำในขั้นต่อไปคือ การเร่งทำกำไรให้ได้มากขึ้น นั่นคือการปรับเปลี่ยนจากการเล่นเชิงรับ (GTO) ไปสู่การเล่นเชิงรุก (Exploitative Play) แต่จะต้องเป็นการเล่นเชิงรุก ที่ไม่เปิดช่องให้ฝ่ายตรงข้าม exploit ตนเองได้ (ซึ่งเป็นไปไม่ได้ในทางคณิตศาสตร์ แต่มนุษย์ไม่ใช่จักรกล จึงเป็นไปได้ที่เราสามารถเล่นเชิงรุก โดยที่ฝ่ายตรงข้ามไม่สามารถ exploit พฤติกรรมที่เปลี่ยนไปของเราได้)
ดังนั้นสิ่งที่นักโป๊กเกอร์มืออาชีพแนะนำก็คือ คุณต้องเริ่มต้นด้วยการสร้าง baseline บนกลยุทธ์แบบ GTO ก่อน แล้วค่อยๆ หาทาง exploit พฤติกรรมของคู่แข่ง เมื่อคุณจับทางคู่แข่งได้ จะต้องค่อยๆ ปรับ baseline มาโจมตีคู่แข่งด้วย Exploitative Play แบบที่ไม่ให้คู่แข่งรู้ตัว (เหมือนกรณีการเล่นเป่ายิ่งฉุบ ด้วยการออกกระดาษมากขึ้นเล็กน้อย หลังจาก exploit ได้ว่าคู่แข่งชอบออกค้อน)
ยกตัวอย่างเช่น ทุกๆ การเล่นที่คุณจะมีโอกาส bluff ได้ baseline ของคุณในกรณีที่จะ bluff คือ 50% ในระยะยาวจะทำให้คู่ต่อสู้ เดาไม่ถูกว่า คุณ bluff หรือคุณมีของ แต่ถ้าคุณเริ่มสังเกตพฤติกรรมของคู่แข่งได้ ว่าเค้าเป็นพวกเล่นปลอดภัยมากๆ คือถ้าไพ่ไม่ดีจริงๆ เค้าจะหมอบเสมอ เมื่อคุณรู้แบบนั้น คุณควรจะเริ่มที่จะเพิ่มสัดส่วนการ bluff ของคุณจาก 50% อาจจะเพิ่มเป็น 60%-70% นี่คือการเริ่มเล่นแบบ Exploitative Play มากกว่าที่จะยืนกลยุทธ์ GTO
ซึ่งถ้าเลือกใช้ Exploitative Play ได้ถูกต้อง ในระยะยาวคุณก็จะสามารถทำกำไรได้เร็วกว่าการเลือกใช้แต่กลยุทธ์แบบ Nash’s Equilibrium แต่อย่าลืมว่า หากคุณเลือกแต่จะโจมตีสุดแรงด้วย Exploitative Play ในทางตรงข้าม มันจะทำให้คู่แข่ง exploit พฤติกรรมของคุณได้ และจะกลับเป็นดาบที่วนกลับมาแทงคุณเอง
ในทางกลับกัน เวลาคุณเล่นเกมรับ คุณก็จำเป็นจะต้องให้ false information ให้กับคู่แข่งที่พยายาม exploit คุณ เหมือนกับว่าคุณเป็นติ้ก ที่แกล้งส่ง signal ให้ตู่ว่า เฮ้ย เงียบๆ กันทั้งคู่นะเว้ย จะได้ติดคุกแค่ 1 ปี
ถ้าตู่รับ signal นั้นมาแล้วเชื่อ เลือกที่จะเงียบ คุณก็สามารถจู่โจมด้วยการโยนความผิดให้ตู่ คุณก็เดินออกจากคุกสบายๆ ปล่อยตู่ติดคุก 10 ปีไป
โป๊กเกอร์ก็เช่นเดียวกัน ถ้าคุณหลอกคู่แข่งเรื่อง hand range ของคุณได้ คือการให้เค้าเลือกใช้ Exploitative Play ทั้งๆ ที่มี false information ในระยะสั้น อาจจะมีเรื่องความโชคดีโชคร้ายเข้ามาเกี่ยวบ้าง แต่ด้วย law of large number ในระยะยาว นักเล่นที่ใช้ Game Theory และ Exploitative Play ผสมผสานกันได้อย่างดี exploit คู่ต่อสู้ได้เก่งกว่า หลอกได้เนียนกว่า จะชนะเสมอ
♠️♥️♣️♦️♠️♥️♣️♦️♠️♥️♣️♦️♠️♥️♣️♦️
ในปี 2015 นักวิจัยจาก University of Alberta ได้ออกแบบหุ่นยนต์โป๊กเกอร์ที่แข่งแบบ head-up โดยสามารถถอดสมการการเล่นแบบ GTO ที่สมบูรณ์แบบได้
นั่นหมายถึงการเอาหุ่นสองตัวมาแข่งกันในระยะยาวแล้วจะได้เสียกันแบบประมาณ 50% คือ หุ่นยนต์สมบูรณ์แบบทั้งสองตัวจะไม่มีวันแพ้ แต่ก็ไม่มีวันชนะ
แต่ถ้าเอาหุ่นยนต์หนึ่งตัวมาแข่ง head-up กับมนุษย์ที่เป็นมือใหม่ หุ่นยนต์ก็จะชนะมนุษย์คนนั้นได้ในที่สุด (แต่จะใช้เวลานานมากกว่าที่นักโป๊กเกอร์มืออาชีพจะเอาชนะมือใหม่คนเดียวกัน นั่นเพราะนักโป๊กเกอร์มืออาชีพนั้นใช้ทั้ง GTO และ Exploitative Play จะทำให้สามารถโจมตีจุดอ่อนของมือใหม่ได้เร็วและรุนแรง จนสุดท้ายมือใหม่ก็จะหมดตัวเร็วกว่าที่สู้กับหุ่นยนต์)
อ่านหนังสือมาเยอะแต่ยังจับต้นชนปลายไม่ถูก
รวม 3 หลักสูตร Online ในคอรสเดียว เรียนจบวิเคราะห์หุ้นได้ทุกตัวในตลาด
✅เเจาะงบราย sector + ประเมินมูลค่า + แกะงบทุกตัวในตลาด(ปีละครั้ง) และสรุปงบ ทุกไตรมาส
✅เรียนOnlineผ่านวิดิโอในfacebookกลุ่มปิด ความยาวกว่า 60 ชั่วโมง
✅ดูได้ตลอดชีพ ไม่มีลบคลิป และไลฟอัพเดทเนื้อหาให้ทันสมัยตลอดเวลา
✅สงสัยถามได้ตลอดเวลา
☀เรียนแล้วได้อะไร☀
✅ดูการ เกิดขึ้นตั้งอยู่และถดถอย ของธุรกิจผ่านงบการเงิน
✅แต่ละช่วงเศรษฐกิจ sector ไหนไป sector ไหนมา และเครื่องมือดูแบบ real time
✅การวิเคราะห์หุ้นกลุ่มการเงิน คุณภาพลูกหนี้ดูตรงไหน
✅กลุ่มธุรกิจบริการ การเติบโต จุดคุ้มทุนดูอย่างไร
✅โรงแรม สื่อสาร ค้าปลีก
✅การวิเคราะห์ธุรกิจผลิต เทคนิคดูกำลังการผลิตของโรงงาน เมื่อไรจะต้องขยายโรงงานใหม่
✅ประสิทธิภาพโรงงานเป็นอย่างไร ใครดีใครด้อย เผยชัดๆ
✅การวิเคราะห์ธุรกิจ ซื้อมาขายไป สิ้นค้าค้างสต็อก เก็บเงินไม่ได้ดูอย่างไร
✅การวิเคราะห์หุ้นกลุ่มรับเหมา
✅การวิเคราะห์หุ้นกลุ่ม อสังหาริมทรัพย์ แบบไวๆ จะโอนได้เมื่อไร
✅การวิเคราะห์หุ้น วงจร รอบมา รอบไป สัญญาณในงบการเงิน
✅หุ้น turn around เจ้ากำลังแอบทำโปรเจกอะไรในงบการเงิน
✅การประมเนมูลค่าของแต่ละ sector ว่ามมีความเหมือนและแตกต่างกันอย่างไร
🔈สอนโดย อ ภัทรธร ช่อวิชิต
นักลงทุนอิสระ เจ้าของผลงานหนังสือ คุ้ยแคะแกะหุ้นเด้ง และเจาะหุ้นร้อนสแกนหุ้นเด้ง
=======================================
แคปรูปตรงนี้มาได้ส่วนลดพิเศษจากปกติ 5000 บาท เหลือเพียง 2,800 บาทเท่านั้น
☎ติดต่อสอบถามและลงทะเบียน (รับจำนวนจำกัด)
line id; pat4310
=======================================