PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.

KEYWORDS
Thai Natural Language Processing Lab., words segmentation, dictionaries, algorithms, Thai text-to-speech.
ความคิดอ่านของเครื่องจักร
พิสิทธิ์ พรมจันทร์
บริษัทเทเลคอมเอเซีย คอร์ปอเรชั่น จำกัด (มหาชน)

กล่าวนำ

ถ้าลองสังเกตพัฒนาการของเด็กเล็ก ๆ ตั้งแต่แรกเกิดเรื่อยมาจนถึงสามขวบ หนูน้อย ตัวเล็ก ๆ เริ่มรู้ว่าใครคือพ่อแม่ ใครคือคนแปลกหน้า เริ่มตอบสนองเมื่อเราเรียกชื่อเขา เริ่มรู้จัก แยกแยะสี แยกแยะสิ่งของต่าง ๆ เริ่มเปล่งเสียงพูดเป็นคำ ๆ พัฒนาขึ้นเป็นประโยค เริ่มตั้งคำ ถามต่าง ๆ เริ่มแสดงความคิดอ่านตลอดจนถึงอารมณ์ของตัวเอง

เราจะเห็นความสามารถในการเรียนรู้ของสมองมนุษย์ได้อย่างน่าทึ่งทีเดียว ถ้าเปรียบ เทียบกับเครื่องคอมพิวเตอร์ที่ทำงานตามคำสั่งอย่างตรงไปตรงมา กล่าวคือเราสามารถสั่งให้ เครื่องเปิดแฟ้มข้อมูลได้ เข้าอินเตอร์เน็ตได้ เปิดจดหมายอิเล็กทรอนิกส์ได้ ค้นหาข้อมูลได้ แต่ เราไม่สามารถสั่งให้เครื่องแสดงความคิดเห็นวิพากย์วิจารณ์กับข้อมูลข่าวสารใด ๆ ที่ค้นหามา ได้เลย

หยั่งลึกสมองมนุษย์

มันสมองของมนุษย์มีความลึกล้ำซับซ้อนเกินกว่ามนุษย์คนเดียวจะเข้าใจได้ นักวิทยา ศาสตร์ในวงการประสาทวิทยา (Neuroscience) รุ่นแล้วรุ่นเล่าต่างช่วยกันศึกษาความเร้นลับนี้ ต่อยอดกันมายาวนานและยังศึกษากันต่อไปอีกเรื่อย ๆ แต่อย่างไรก็ตามผลพวงของการค้น คว้าที่ผ่านมาได้ช่วยให้สามารถประยุกต์นำความรู้นี้ไปใช้ประโยชน์ ซึ่งรวมไปถึงการสร้างเครื่อง คอมพิวเตอร์ที่มีความคิดอ่านเลียนแบบการทำงานของสมองมนุษย์

ส่วนประกอบที่ปลีกย่อยที่สุดของสมองมนุษย์คือเซลชนิดพิเศษที่ช่วยให้มนุษย์มีความ สามารถในการจำ คิด และประยุกต์ใช้ประสบการณ์ที่ผ่านมาสำหรับทุกอย่างที่ทำการใดๆ ลง ไป เซลต่าง ๆ เหล่านี้คือที่เรารู้จักในนามเซลประสาท (Neuron) นั่นเอง เซลประสาทเซลหนึ่ง อาจเชื่อมต่อกับเซลประสาทอื่น ๆ มากถึง 200,000 เซลเลยทีเดียว พลังความคิดของสมอง เป็นผลมาจากจำนวนของเซลย่อย ๆ พื้นฐานที่สมบูรณ์ และโครงข่ายที่เข้มแข็งของการเชื่อมต่อ ของเซลย่อย ๆ เหล่านี้
bneuron.gif (3546 bytes) เซลประสาททุก ๆ เซลประกอบด้วย 4 ส่วนย่อยเรียกว่าเด็นไตรท์ (dendrites) โซมา ( soma) แอกซอน (axon) และซินแนปส์ (synapses) โดยการทำงานพื้นฐานของเซลประสาท แล้ว เด็นไตรท์ทำการรับข้อมูลต่าง ๆ จากภายนอก รวมเข้าด้วยกันด้วยวิธีการหนึ่งใด ปฏิบัติ การที่ไม่เป็นเชิงเส้นกับผลที่ได้โดยโซมา แล้วแอกซอนจึงส่งผลลัพธ์สุดท้ายที่ได้ออกไปโดยผ่าน ซินแนปส์ซึ่งเป็นส่วนเชื่อมต่อทางไฟฟ้าเคมีกับเซลประสาทอื่น ๆ

เลียนแบบโครงข่ายประสาทมนุษย์

โครงข่ายประสาทประดิษฐ์ (Artificial Neural Network) คือความพยายามที่จะทำการ จำลองการทำงานตามแบบอย่างของสมองมนุษย์เพื่อการประมวลผลโดยใช้ฮาร์ดแวร์หรือซอฟท์ แวร์สร้างเซลประสาทจำลองที่เชื่อมต่อกันเป็นเครือข่ายที่สลับซับซ้อนหลาย ๆ ชั้น ความเข้ม แข็งของการต่อเชื่อมของเซลประสาทจำลองกับเซลข้างเคียงใด ๆ สามารถปรับแต่งได้เรียกว่า การปรับแต่งสัมประสิทธิ์ของการเชื่อมต่อ การเรียนรู้ของโครงข่ายประสาทประดิษฐ์นี้ทำได้โดย การปรับแต่งความเข้มแข็งของการเชื่อมต่อระหว่างเซลต่าง ๆ ในโครงข่ายเพื่อให้โครงข่ายสร้าง ผลงานที่เหมาะสมออกมา
aneuron.gif (3594 bytes) แต่ละเซลของโครงข่ายรับข้อมูลเข้ามาจากข้างนอกหรือจากเซลข้างเคียงหลาย ๆ แหล่ง แต่ละข้อมูลเข้ามาจะมีความเข้มแข็งของการเชื่อมต่อ หรือพูดง่าย ๆ คือน้ำหนักของข้อมูลเข้า จากแต่ละแหล่งที่มากน้อยไม่เท่ากัน ทำการคำนวณอย่างใดอย่างหนึ่ง เช่นในกรณีง่าย ๆ คือ หาผลรวมของข้อมูลป้อนเข้าที่ผ่านการคูณกับน้ำหนักของข้อมูลนั้น ๆ ส่งผลที่ได้ไปสู่ฟังก์ชั่น การถ่ายโอนเพื่อสร้างผลลัพธ์และส่งผลที่ได้ออกไปข้างนอก หรือเซลอื่นต่อไป โดยผลที่ได้มีการ ป้อนกลับเป็นข้อมูลเข้าของเซลเดียวกันเองนี้ด้วย

การออกแบบโครงข่าย

การออกแบบโครงข่ายประสาทประดิษฐ์ทำได้โดยการจัดวางเซลประสาทเป็นชั้น ๆ แล้วออกแบบการเชื่อมต่อของเซลต่าง ๆ ภายในชั้นเดียวกันและที่อยู่ต่างชั้นกัน วางแนวทาง การรับข้อมูลเข้า และการนำผลลัพธ์ออกสู่ภายนอก ทำการสอนโครงข่ายโดยใช้ฐานข้อมูลที่ เลือกมาเป็นชุดของข้อมูลสำหรับการเรียนรู้ ป้อนเข้าโครงข่ายแล้วปรับแต่งน้ำหนักของการ เชื่อมต่อของเซลต่าง ๆ ภายในโครงข่าย กระบวนการออกแบบและสอนนี้ไม่มีกฎเกณฑ์ตายตัว เสียทีเดียว ผู้ออกแบบควรจะต้องใช้หลักการอมตะที่เรียกว่าการลองผิดลองถูกไปเรื่อย ๆ จนได้ โครงข่ายและน้ำหนักของการเชื่อมต่อภายในที่เหมาะสมดีที่สุดแล้วจึงนำไปใช้งานได้กับข้อมูล จริง

โดยทั่งไปแล้วจะแบ่งโครงข่ายออกเป็นสามชั้นหลักคือ “ชั้นขาเข้า” (Input Layer) ” ชั้นกลาง” หรือ “ชั้นซ่อน” (Hidden Layer) และ ” ชั้นขาออก” (Output Layer) โดยชั้นกลาง อาจมีหลายชั้นได้ตามความเหมาะสม ชั้นขาเข้าประกอบไปด้วยเซลที่รับข้อมูลเข้าจากภายนอก ชั้นขาออกคือชั้นที่ประกอบด้วยเซลที่ส่งผลลัพธ์ที่ได้ออกสู่ภายนอก ขั้นกลางประกอบด้วยเซลที่ อยู่ระหว่างสองชั้นแรกดังกล่าว

การเชื่อมต่อสื่อสารระหว่างชั้น

การเชื่อมต่อระหว่างชั้นของโครงข่ายประสาทประดิษฐ์อาจทำได้หลายแบบเช่น “เชื่อม ต่อสมบูรณ์แบบ” (Fully connected) กล่าวคือแต่ละเซลของชั้นแรกเชื่อมต่อกับทุกเซลของชั้น ถัดไป “เชื่อมต่อแบบบางส่วน” (Partially connected) กล่าวคือไม่จำเป็นที่จะต้องเชื่อมต่อเซล ของชั้นแรกเข้ากับทุกเซลของชั้นต่อไป “เชื่อมต่อแบบป้อนตรง” (Feed forward) กล่าวคือเซล ในชั้นแรกป้อนข้อมูลให้เซลในชั้นที่สองแต่ไม่รับข้อมูลป้อนกลับมาจากชั้นที่สองนั้น และ “เชื่อม ต่อแบบสองทาง” (Bi-directional) มีชุดการเชื่อมต่อไปกลับสองทางระหว่างชั้น การเชื่อมต่อ แบบป้อนตรงและแบบสองทางอาจใช้การเชื่อมต่อแบบสมบูรณ์ หรือบางส่วนก็ได้

การเชื่อมต่อสื่อสารภายในชั้น

สำหรับการเชื่อมต่อภายในชั้นกันเองของโครงข่ายประสาทประดิษฐ์อาจทำได้สองทาง คือ “แบบซ้ำ ๆ” (Recurrent) กล่าวคือเมื่อเซลประประสาทใด ๆ รับข้อมูลป้อนเข้ามาจากชั้น อื่น ให้สื่อสารผลลัพธ์ที่ได้ไปยังเซลข้างเคียงในชั้นเดียวกันจนถึงระดับหนึ่งแล้วจึงส่งผลลัพธ์ที่ได้ ไปสู่ชั้นต่อ ๆ ไป “แบบเปิดศูนย์กลางปิดรอบข้าง” (On-center/off surround) กล่าวคือให้เซล ภายในชั้นเดียวกันแข่งขันกันสร้างพลังของตัวเองและเซลข้างเคียงที่ใกล้ชิดกันโดยตรง พร้อม กับลดทอนกำลังของเซลที่อยู่ถัดไปโดยส่งข้อมูลที่เป็นลบไปให้เมื่อแข่งไปสักพักเซลที่ชนะจะได้ รับอนุญาตให้ปรับน้ำหนักการเชื่อมต่อของตนเองได้

กระบวนการเรียนรู้ของโครงข่ายประสาทประดิษฐ์

โดยพื้นฐานแล้วมันสมองมนุษย์จะเรียนรู้จากประสบการณ์ในอดีต สำหรับโครงข่าย ประสาทประดิษฐ์สามารถเรียนรู้ได้ด้วยการปรับน้ำหนักของการเชื่อมต่อภายในโครงข่ายเพื่อ ให้ได้คำตอบสำหรับปัญหาใด ๆ ได้ โครงข่ายที่ผ่านการเรียนรู้มาแล้วซึ่งมีน้ำหนักของการเชื่อม ต่อภายในที่เหมาะสมก็สามารถนำไปใช้กับข้อมูลจริงในชีวิตประจำวันได้ การเรียนรู้ของโครง ข่ายโดยทั่วไปมีด้วยกันสามแบบคือ

“เรียนรู้ด้วยตนเอง” (Unsupervised learning) กล่าวคือเซลประสาทในชั้นกลางต้อง หาทางปรับปรุงตัวเองโดยไม่ต้องได้รับการช่วยเหลือจากภายนอก ไม่มีตัวอย่างข้อมูลออกให้ ทราบว่าประสิทธิภาพภารทำงานดีหรือด้อยอย่างไร หรือเรียกว่าวิธีการเรียนรู้จากการกระทำ

“แบบเสริมกำลัง” (Reinforcement learning) กล่าวคือเรียนรู้จากการเสริมกำลังจาก ภายนอก มีการจัดเรียงปรับแต่งการเชื่อมต่อของเซลประสาทในชั้นกลางเมื่อมีการบอกโครง ข่ายว่าเข้าใกล้เป้าหมายที่ต้องการมากน้อยเพียงไรแล้ว บางทีอาจเรียกว่าการเรียนรู้แบบมีพี่ เลี้ยงหรือแบบมีครู (Supervised learning) โดยครูคือชุดตัวอย่างข้อมูลที่ใช้สอนหรือผู้สังเกต การที่คอยให้คะแนนว่าประสิทธิภาพของผลงานของโครงข่ายเป็นอย่างไร

“แบบแพร่กระจายกลับ” (Back propagation) การเรียนรู้แบบนี้มีการทดสอบและยอม รับกันทั่วไปว่าให้ประสิทธิภาพดีที่สุดสำหรับการสอนโครงข่ายประสาทประดิษฐ์ กล่าวคือเป็น การเรียนรู้แบบมีครูดังข้างต้น บวกกับการนำข้อมูลความผิดพลาดที่เคยเกิด ผ่านการกรองแล้ว ป้อนกลับให้ระบบ และใช้สำหรับการปรับแต่งน้ำหนักของการเชื่อมต่อภายในโครงข่ายด้วย

กฎของการเรียนรู้

มีการศึกษาค้นคว้ามากพอสมควรเพื่อสร้างเป็นกฎพื้นฐานของการเรียนรู้หรือการปรับ แต่งน้ำหนักของการเชื่อมต่อของเซลต่าง ๆ ภายในโครงข่ายประสาทประดิษฐ์และเป็นที่ยอมรับ กันทั่วไปเช่น กฎที่เก่าแก่ที่สุดตั้งแต่ปี พ. ศ. 2492 คือกฎของเฮ็บบ์ (Hebb’ s Rule) กล่าวว่า ถ้าเซลประสาทรับข้อมูลมาจากอีกเซลหนึ่งและทั้งสองต่างก็มีความกระตือรือร้นสูง (ในเชิง คณิตศาสตร์คือมีเครื่องหมายเดียวกันทั้งคู่) น้ำหนักของการเชื่อมต่อของทั้งคู่ควรปรับให้เข้ม แข็งขึ้น นอกจากนี้ยังมีกฎอื่น ๆ อีกเช่นกฎของโฮบฟิลด์ (Hopfield Law) กฎของความแตกต่าง (The Delta Rule) กฎการเรียนรู้ของโคโฮเนน (Kohonen’s Learning Law) ฯลฯ

การประยุกต์ใช้โครงข่ายประสาทประดิษฐ์

พบว่าโครงข่ายประสาทประดิษฐ์ประสบความสำเร็จได้ดีกว่าวิธีอื่น ๆ ในหลายแขนง เช่นการรู้จำ การเปรียบเทียบรูปแบบที่ซับซ้อน คลุมเครือ หรือไม่สมบูรณ์ การใช้งานที่เป็นที่ นิยมกันมากคือการใช้คาดการณ์สิ่งที่น่าจะเกิดขึ้นมากที่สุดในอนาคต ใช้ในการสืบค้นฐาน ความรู้ของระบบผู้เชี่ยวชาญ การทำนายตลาดหุ้น การคาดการณ์ความล้มละลาย ความวิปริต ต่าง ๆ การเฝ้าติดตามระแวดระวังต่าง ๆ การพยากรณ์อากาศ เป็นต้น

สำหรับการประยุกต์ใช้ที่ประสบความสำเร็จที่สุดคือการใช้งานเพื่อการจัดกลุ่มและการ รู้จำรูบแบบ เช่นค้นส่วนผสมทางเคมีที่อาจนำไปสู่การสร้างระเบิด การค้นหาอาวุธ แยกแยะ ประเภทของอากาศยาน ประมวลผลภาพถ่ายดาวเทียม คำในภาษาพูด ภาษาเขียน ข้อมูลทาง การเงินของลูกค้าหรือลูกหนี้ การประเมินความเสี่ยงทางการเงิน

โดยพื้นฐานแล้วโครงข่ายประสาทประดิษฐ์สามารถประยุกต์ใช้ได้ดีสำหรับกลุ่มงานดัง เช่น การทำนาย คาดการณ์ (Prediction) การจำแนกประเภท (Classification) การมีส่วนร่วม ของข้อมูล (Data association) การสร้างสรร มโนภาพ หรือจินตนาการจากข้อมูล (Data Conceptualization) การกลั่นกรองข้อมูล (Data Filtering) เป็นต้น

สรุป

คงอาจใช้เวลาอีกหลายรุ่นกว่ามนุษย์จะสมารถสร้างเครื่องจักรที่มีความคิดอ่านเป็น ของตัวเองได้ อย่างไรก็ตามในระหว่างทางที่จะก้าวไปถึงจุดนั้น ผลพวงของความพยายามศึกษา คิดค้นของมนุษย์ก็ได้ก่อให้เกิดเป็นผลิตภัณท์ ธุรกิจ อุตสาหกรรม ต่าง ๆ มากมาย หรือแม้แต่ ความเป็นอยู่ที่สะดวกสบายและปลอดภัยขึ้นแก่มนุษย์ด้วยกันเอง


This page hosted by   Get your own Free Home Page 1