PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.

KEYWORDS
Thai Natural Language Processing Lab., words segmentation, dictionaries, algorithms, Thai text-to-speech.
นอสตราดามุสสมองกล
พิสิทธิ์ พรมจันทร์
บริษัท เทเลคอมเอเซีย คอร์ปอเรชั่น จำกัด (มหาชน)

กล่าวนำ

ในช่วงประมาณปี ค.ศ. 1503 ถึง ค.ศ. 1566 เป็นยุคสมัยที่โหราจารย์ผู้ยิ่งใหญ่ของ โลกนอสตราดามุสถือกำเนิดและสร้างสรรผลงานโคลงกลอนคำพยากรณ์ที่มีชื่อเสียงตราบจน ปัจจุบัน เช่นได้พูดถึงฮิตเลอร์ เยอรมัน พูดถึง มาบุส หรือกลับอักษรเป็นซัดดัม พูดถึงเหตุการณ์ ไฟไหม้กรุงลอนดอนในปี ค.ศ. 1666 พูดถึงการระเบิดของยานแชลเลนเจอร์ในปี พ.ศ. 2529 พูดถึงสงครามโลกครั้งที่ 3 และวันสิ้นโลกในปี พ.ศ. 2543 ไม่ว่าจะเป็นความจริงหรือการบิด เบือนของผู้แปลโคลงกลอนเหล่านั้นก็ตาม มันทำให้เกิดความตื่นตระหนกต่าง ๆ นา ๆ แก่ชาว โลก เนื่องมาจากความไม่รู้อนาคตนั่นเอง แต่ถ้าหากเรารู้อนาคต หลายสิ่งหลายอย่างก็จะ เปลี่ยนไปในทางที่ดีกว่าโดยเฉพาะหลังจากไม่มีท่านโหราจารย์มาพยากรณ์อนาคตให้เราอีกต่อ ไป น่าเสียดายที่นอสตราดามุสไม่ได้ทำนายไว้ว่าคอมพิวเตอร์ และอินเตอร์เน็ตคืออาวุธหลักที่ มนุษย์ใช้ทำสงครามในสงครามโลกครั้งที่ 3 ที่จะถึงนี้ ถ้าหากสมัยนั้นมีคอมพิวเตอร์ใช้งาน ผม เชื่อเหลือเกินว่าท่านโหราจารย์จะต้องแปลี่ยนใจจากที่เลือกอาชีพแพทย์เป็นนักวิทยาศาสตร์ คอมพิวเตอร์แทนเป็นแน่แท้ เพื่อที่จะให้คำพยากรณ์ของท่านแม่นยำยิ่งขึ้น

พยากรณ์อนาคตด้วยหลักการทางวิทยาศาสตร์

ถ้าเรารวบรวมข้อมูลตัวแปรดัชนีต่าง ๆ ที่มีผลต่ออนาคตไว้ตลอดเวลาเช่นดัชนีผู้บริโภค ผลประกอบการของกลุ่มธุรกิจต่าง ๆ อัตราค่าแลกเปลี่ยนเงินตรา ผลผลิตมวลรวม อัตราเงิน เฟ้อ รายได้ประชาชน หนี้สินแห่งชาติ และความคล่องตัวของการสื่อสารโทรคมนาคม เป็นต้น เราสามารถใช้หลักการทางวิทยาศาสตร์หลายตัวมาพยากรณ์อนาคตของเราได้ ไม่ว่าอนาคตกิจ การที่มีศักยภาพ หรือกิจการที่เริ่มอ่อนแอลง ไปจนถึงแนวโน้มตลาดหลักทรัพย์ เป็นต้น อีกตัว อย่างหนึ่ง ถ้าเราเก็บอุณหภูมิ ความเร็วลม ปริมาณน้ำฝน ความชื้น แรงกดอากาศ ฯลฯ ไว้ ตลอดเวลา เราก็สามารถพยากรณ์แนวโน้มสภาวะภูมิอากาศได้ เป็นต้น หลักการที่ใช้ในการ พยากรณ์ดังกล่าวคือหลักการทางสถิติ ยกตัวอย่างหลักรีเกรสชั่น (regression) หลักการทาง คณิตศาสตร์เช่นหลักเฮ็ชเอ็มเอ็ม (HMM: Hidden Markov model) ซึ่งนิยมใช้แพร่หลายในการ ประมวลผลสัญญาณเสียงพูด หลักการโครงข่ายประสาทเทียม (Neuron Network) ซึ่งนิยมใช้ใน การรู้จำรูปแบบ (pattern recognition) เป็นต้น หลักการพื้นฐานของขั้นตอนวิธีการเหล่านี้คือใช้ ข้อมูลดัชนีต่าง ๆ ที่เก็บไว้ในอดีตมาเป็นข้อมูลการเรียนรู้ (learning set) ให้กับแบบจำลองทาง คณิตศาสตร์เหล่านั้นเพื่อได้ข้อมูลออกมาเป็นเหตุการที่อาจจะเกิดในอนาคต ประเด็นปัญหา สำคัญของการพยากรณ์อนาคตด้วยวิธีนี้ประการแรกคือการใช้เวลามากในการเรียนรู้ข้อมูล จำนวนมากมายเหล่านั้น คอมพิวเตอร์คือคำตอบสำหรับปัญหานี้กล่าวคือความเร็วในการ ประมวลผลของคอมพิวเตอร์ที่เพิ่มขึ้นทุกวัน ถ้าเราประมาณว่าคอมพิวเตอร์เครื่องหนึ่งใช้เวลา 5 รอบนาฬิกา (1 รอบนาฬิกาเท่ากับ 1/500ล้านวินาทีสำหรับเครื่องที่มีความเร็ว 500 เมกกาเฮิ รทซ์) ต่อหนึ่งคำสั่ง นั่นจะได้ว่าคอมพิวเตอร์เครื่องนั้นมีความเร็ว 100 ล้านคำสั่งต่อวินาที การ พยากรณ์ด้วยคอมพิวเตอร์จึงเป็นจริงได้ โดยเฉพาะอย่างยิ่งการนำคอมพิวเตอร์หลาย ๆ ตัวต่อ ขนานกันเป็นเครื่องประมวลผลแบบขนานประสิทธิภาพสูง ช่วยกันทำงานอย่างเดียวกัน

คอมพิวเตอร์พยากรณ์ในชีวิตประจำวัน

เราต่างคุ้นเคยกับโปรแกรมตารางคำนวณ ในปัจจุบันโปรแกรมเหล่านี้ใส่ความสามารถ ในการทำรีเกรสชั่นสำหรับตัวแปรจำนวนไม่มากได้แล้ว โปรแกรม ”อ่านไทย” ในท้องตลาดได้ ใช้โครงข่ายประสาทเทียมเพื่อรู้จำและแปลงภาพจากเครื่องสแกนเป็นข้อความภาษาไทย โมดูล นูเจ้นท์ (Neugent) ของ CA-Unicenter ใช้โครงข่ายประสาทเทียมในการพยากรณ์เหตุการณ์ผิด ปกติต่าง ๆ ที่อาจจะเกิดขึ้นกับการให้บริการสารสนเทศจากจำนวนตัวแปรข้อมูลการเรียนรู้ที่มี ได้สูงสุดถึง 1200 ตัวแปร ตัวอย่างเหล่านี้แสดงให้เห็นว่าการพยากรณ์ด้วยคอมพิวเตอร์มีอยู่ ใกล้ ๆ ตัวเราทุกวัน การรวบรวมข้อมูลเป็นประเด็นปัญหาที่สองที่มีความสำคัญมาก หลายองค์ กรจึงเริ่มมีการจัดสร้างคลังข้อมูล (Data Warehouse) ขึ้นมาเพื่อที่จะเตรียมความพร้อมในการ ประยุกต์ใช้ข้อมูลในอนาคตเพื่อความได้เปรียบในการแข่งขันทางธุรกิจ แหล่งข้อมูลก็เป็น ประเด็นปัญหาต่อมา รายการธุรกรรมต่าง ๆ ที่เกิดขึ้นจากการดำเนินการ แหล่งข้อมูลบน อินเตอร์เน็ต ต่าง ๆ เหล่านี่เป็นแหล่งสำคัญที่จะให้ได้มาของข้อมูลตัวแปรดัชนีต่าง ๆ สำหรับ การพยากรณ์อนาคตที่ปราศจาคท่านโหรจารย์นอสตราดามุสมาคอยให้คำแนะนำหลังปี ค.ศ. 2000 เนื่องจากคำทำนายของท่านไม่มีไกลเกินกว่านี้อีกแล้ว

สรุป

นับแต่นี้ไปคอมพิวเตอร์ไม่ได้เป็นเพียงแค่อุปกรณ์สำนักงานเท่านั้น แต่คอมพิวเตอร์จะ กลายเป็นอาวุธสำคัญในการทำสงครามโลกครั้งที่ 3 ที่นอสตราดามุสทำนายไว้ว่าจะเกิดขึ้นในปี 2000 และพร้อมกันนั้นคอมพิวเตอร์ก็จะกลายเป็นนอสตราดามุสสมองกลที่สามารถพยากรณ์ โลกต่อไปภายหลังสิ้นสุดการทำนายของท่านในปีเดียวกัน


This page hosted by   Get your own Free Home Page 1