December 7, 2017

ไปซ้อมเล่นตรงนู้นนะ

นี่คือการจัดอันดับของโปรแกรมหมากรุกที่เก่งที่สุดในโลก ในเดือนธันวาคม พ.ศ. 2560

ข่าวใหญ่สมัยพวกเรายังเด็ก คือโปรแกรม Deep Blue โค่นแชมป์โลก Garry Kasparov สำเร็จใน พ.ศ. 2540 นับจากนั้น โปรแกรมหมากรุกก็พัฒนาขึ้นเรื่อยๆ ตามกฎของมัวร์ จนกลายมาเป็นการจัดอันดับนี้ ทุกโปรแกรมในนี้เป็นการผสานระหว่างสุดยอดภูมิปัญญามนุษย์ กับศักยภาพในการคำนวณของคอมพิวเตอร์ซึ่งสามารถอ่านหมากล่วงหน้าถึง 70,000,000 ตา/วินาที โปรแกรมเหล่านี้เล่นโดยไม่มีข้อผิดพลาด เฉือนกันที่ CPU โดยโปรแกรมแชมป์ชื่อ Stockfish เขียนด้วยภาษา Assembly เพื่อให้ทำงานเร็วที่สุด

วันหนึ่งบริษัทวิจัยชื่อ DeepMind เจ้าของโปรแกรมหมากล้อม AlphaGo ที่เอาชนะแชมป์โลกมาเมื่อไม่กี่เดือนก่อน ก็สร้างโปรแกรม AlphaZero ซึ่งเป็นผ้าขาว สามารถเรียนรู้เกมอะไรก็ได้ และได้สอนกฎการแพ้ชนะของหมากรุกโดยไม่ได้บอกวิธีเล่น วิธีการสอนแบบนี้เรียกว่าให้ไปแค่ first principles

AlphaZero ฝึกซ้อมกับตัวเองอยู่ 4 ชั่วโมง ยังไม่ได้รับการฝึกกับคู่แข่งอื่นเลย ก็ถูกจับไปเล่นกับ Stockfish แชมป์เก่า เป็นจำนวน 100 เกม AlphaZero ชนะ 28 เกม เสมอ 72 เกม

AlphaZero อ่านหมากเพียง 80,000 ตา/วินาที และไม่มีวิธีการเล่นเก่าๆ ให้ศึกษา แต่นั่นหมายความว่ามันก็ไม่ยึดติดกับคู่มือของมนุษย์เช่นกัน มันคือสิ่งมีชีวิตจากต่างดาวที่วิวัฒนาการมาเพื่อจุดประสงค์เดียว นั่นคือเล่นหมากรุกให้เก่งที่สุดที่เป็นไปได้

ในช่วงเวลา 4 ชั่วโมงที่ AlphaZero เรียนรู้วิธีเล่นโดยไม่มีใครสอน มันได้ค้นพบ insight มากกว่ามนุษย์ที่เล่นหมากรุกมาเป็นพันปี และเดินหมากชวนฉงนที่วงการหมากรุกจะต้องศึกษาไปอีกนาน

เตรียมพบกับเวอร์ชั่นถัดไป AlphaPaperclip

อ่านงานวิจัยของ DeepMind ได้ที่ https://arxiv.org/pdf/1712.01815.pdf

Kudos

ไปซ้อมเล่นตรงนู้นนะ

Now read this

บันทึกการสร้าง PromptPay.io