PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.

KEYWORDS
Thai Natural Language Processing Lab., words segmentation, dictionaries, algorithms, Thai text-to-speech.
ตรรกแห่งความคลุมเครือ
(ตอนความคลุมเครือของภาษาไทย)

พิสิทธิ์ พรมจันทร์
บริษัท เทเลคอมเอเซีย คอร์ปอเรชั่น จำกัด (มหาชน)

กล่าวนำ

ภาษาไทยอยู่เคียงคู่กับสังคมไทยมายาวนานหลายศตวรรษ ไม่ใช่เป็นเพียงศิลปะ วัฒน ธรรม เทคโนโลยี หรือนวัตกรรม แต่ภาษาไทยเป็นส่วนหนึ่งของชีวิตที่ประกอบเป็นสังคมไทย เราตั้งแต่อดีต ปัจจุบัน และคงจะเป็นไปในอนาคตต่อไป

ภาษาไทยก่อกำเนิด เจริญงอกงาม แพร่กระจาย ขยายพันธุ์ และรับสายพันธุ์ภาษาอื่น ๆ เข้ามาตลอดเวลา ถ้าเราสังเกตภาษาไทยจากบริบทรอบ ๆ ตัวเรา ไม่ว่าจะเป็นการสื่อสารกับ คนรอบข้าง ข่าวสาร บันเทิง แหล่งความรู้ ฯลฯ เราอาจจะไม่พบข้อน่าสังเกตอะไรมากนัก แต่ถ้าเราลองสังเกตภาษาไทยจากบริบทรอบ ๆ ตัวเราเปรียบเทียบกับมิติแห่งเวลาที่ ผ่านมา เราจะพบกับความเจริญงอกงามทางพันธุกรรมของภาษาไทยได้อย่างน่าพิศวง ขอยก ตัวอย่างเพื่อให้เห็นเป็นรูปธรรมคือ ลองสังเกตจากคำต่อไปนี้ “สามย่าน” “ท่าพระจันทร์” “ร้านดอกหญ้า” “ถนนเพชรเกษม” “นวมินทร์” “ปัมป์บางจาก” “ร้านเลมอนฟาร์ม” “ส หกรณ์โคออพ” “ประธานาธิบดีลินคอล์น” “คิกขุอาโนเนะ” “ปาร์ตี้ลีสต์”

จากตัวอย่างข้างบนพบว่าคำภาษาไทยสามารถผสมพันธุ์กันเองโดยการสนธิได้เป็นคำ ใหม่ที่ไม่มีในพจนานุกรมคือ “นวม” (อ่านว่า นะ-วะ-มะ) ซึ่งแปลว่าเก้า สนธิกับคำว่า “อินทร์” ซึ่งแปลว่า “ผู้เป็นใหญ่” ได้คำว่า “นวมินทร์” เป็นต้น นอกจากนี้เรายังพบว่าคำภาษา ไทยยังสามารถผสมข้ามเผ่าพันธุ์ การทับศัพท์ภาษาอื่น หรือแม้แต่การหยิบยกเอาเผ่าพันธุ์ ภาษาอื่นมาอย่างดื้อ ๆ ก็มี สิ่งเหล่านี้คือความคลุมเครือของภาษาไทย

หลายท่านอาจเห็นเป็นเรื่องเล็ก ๆ แต่เรื่องเล็ก ๆ แบบนี้มีหลายองค์กรได้ใช้เป็นกล ยุทธทางการตลาดที่ประสบความสำเร็จมานักต่อนักแล้ว ยกตัวอย่างเช่น แม่ข่ายอินเทอร์เน็ต สองแห่งที่ได้รับความนิยมสูงที่สุดในประเทศไทยคือ “สนุก” กับ ”พันธ์ทิพย์” ใช้กลยุทธง่าย ๆ คือการพิถีพิถันในการใช้ภาษาที่เป็นมิตรกับคนไทยมากที่สุด แค่การใช้ชื่อก็เป็นต่อรายอื่น หลายชั้นแล้ว

อีกตัวอย่างหนึ่งคือกรณีของไมโครซอฟต์ ซึ่งพวกเขาพบว่าภาษาอังกฤษไม่ใช่ภาษาที่ เป็นมิตรกับคนทั้งโลกมากที่สุด พวกเขาจึงเลือกใช้ภาษาใหม่ที่เป็นมิตรกับคนทั้งโลกมากกว่า นั้นกับผลิตภัณฑ์ของพวกเขานั่นคือภาษา “ชี้และจิ้ม” (point and click) กับภาษา “ลากและ ทิ้ง” (drag and drop) ดังนั้นผลิตภัณฑ์ของพวกเขาจึงแทรกซึมไปทั่วโลกได้อย่างง่ายดาย

ใช้คอมพิวเตอร์ประมวลผลความคลุมเครือของภาษาไทย

การประมวลผลภาษาไทยด้วยคอมพิวเตอร์เป็นสาขาหนึ่งที่นักคิดค้นวิจัยให้ความสนใจ มานานพอสมควร ผลิตภัณฑ์ต่าง ๆ ที่เกี่ยวข้องทั้งในปัจจุบันและอนาคตอันใกล้เช่น โปรแกรม ประมวลผลคำ เครื่องมือช่วยตรวจสอบตัวสะกด พจนานุกรมอิเล็กทรอนิกส์ การสืบค้นข้อมูล ภาษาไทย เครื่องสังเคราะห์เสียงพูด ระบบรู้จำเสียงพูด รู้จำตัวเขียนอัตโนมัติ การให้บริการข้อ มูลข่าวสารตามสาย เป็นต้น เมื่อภาษาไทยมีความคลุมเครือมากขึ้น นักวิจัยไทยก็ควรอุทิศทุ่ม เทกับงานวิจัยในแขนงนี้เพิ่มขึ้นตามกันไป

ระบบต่าง ๆ ที่เกี่ยวข้องกับการประมวลผลภาษาไทยด้วยคอมพิวเตอร์ดังกล่าว นอก จากจะให้ประโยชน์แก่สังคมยุคข่าวสารสารสนเทศในปัจจุบันโดยตรงแล้ว ยังอาจมีส่วนช่วยให้ ภาษาไทยมีสุขภาพแข็งแรง ยืนยาว และเป็นอมตะในอนาคตอีกด้วย ผลงานความสำเร็จของการวิจัยใช้คอมพิวเตอร์ประมวลผลความคลุมเครือของภาษา ไทย ยกตัวอย่างเช่น การสืบค้นข้ามภาษาในกรณีของการใช้คำทับศัพท์ การติดตามหาขอบเขต ของคำที่ไม่รู้จัก การตัดคำ การแบ่งพยางค์ การสังเคราะห์เสียงพูดภาษาไทยสำหรับคำที่ไม่รู้จัก ฯลฯ การประชุมทางวิชาการทางวิทยาศาสตร์และวิศวกรรมคอมพิวเตอร์แห่งชาติประจำปีที่จะ มีขึ้นที่ศูนย์ประชุมสิริกิติ์ ระหว่างวันที่ 16-17 พฤศจิกายนนี้ จะมีการนำเสนอผลงานการคิด ค้นวิจัยในแขนงนี้หลายหัวข้อ น่าสนใจทีเดียว

ประยุกต์ตรรกแห่งความคลุมเครือ

เมื่อมีความคลุมเครือเกิดขึ้น เราสามารถตั้งสมมติฐานได้ว่าทฤษฎีตรรกแห่งความคลุม เครือของศาสตราจารย์ซาดาห์น่าจะใช้ได้ผลกับการประมวลผลภาษาไทยนี้ แล้วเราจะวัดค่า ความคลุมเครือของภาษาไทยได้อย่างไร

คำตอบของปัญหานี้คือใช้ความรู้ทางภาษาไทยของผู้เชี่ยวชาญภาษาไทยเป็นเครื่องมือ วัดค่าความคลุมเครือดังกล่าว ยกตัวอย่างเช่นถ้าเราต้องการให้เครื่องคอมพิวเตอร์สังเคราะห์ เสียงพูดคำที่ไม่รู้จักข้างต้นเครื่องก็จะไม่สามารถทำได้เนื่องจากไม่มีหน่วยเสียงสำหรับบาง พยางค์ในบางคำ

นักภาษาศาสตร์ได้ทำการศึกษาและเผยแพร่ความรู้ทางภาษาไทยมากมายเช่นอาจารย์ กำชัย ทองหล่อได้จัดกลุ่มของอักษรจากฐานกำเนิดของเสียงเดียวกันเช่นเกิดจากฐานคอ (อักษร ก ข ค ฅ ฆ ง) เรียกว่าวรรค “ก” เกิดจากฐานเพดาน (อักษร จ ฉ ช ซ ฌ ญ) เรียก ว่าวรรค “จ” เกิดจากฐานปุ่มเหงือก (อักษร ฎ ฏ ฐ ฑ ฒ ณ) เรียกว่าวรรค “ฎ” เกิดจากฐาน ฟัน (อักษร ด ต ถ ท ธ น) เรียกว่าวรรค “ด” เกิดจากฐานริมฝีปาก (อักษร บ ป ผ ฝ พ ฟ ภ ม) เรียกว่าวรรค “บ” เป็นต้น นอกจากนี้ยังสามารถใช้ข้อมูลความคล้ายกันทางสระหน้า อักษรนำ อักขระควบกล้ำ สระตาม เสียงตัวสะกด และวรรณยุกต์

เราจึงสามารถคำณวนหาสัดส่วนของการเป็นสมาชิกของคำที่ไม่รู้จักจากหน่วยเสียงที่ เรามีอยู่ได้ โดยคิดจากหน่วยเสียงที่มีเสียงสระหน้าคล้ายกัน อักษรนำกลุ่มเดียวกัน อักขระควบ กล้ำ สระตาม เสียงตัวสะกด และวรรณยุกต์ที่ใกล้เคียงกัน หน่วยเสียงที่มีค่าสัดส่วนของการ เป็นสมาชิกสูงสุดคือหน่วยเสียงที่มีความใกล้เคียงทางเสียงกับหน่วยเสียงที่ไม่รู้จักมากที่สุด เครื่องจึงสามารถสังเคราะห์เสียงคำที่ไม่รู้จักออกไปได้ ที่ระดับความแม่นยำชัดเจนสูงสุดเท่าที่ ฐานข้อมูลหน่วยเสียงมีอยู่

กระบวนการแก้ปัญหาในอนาคต

นอกจากใช้ทฤษฎีตรรกแห่งความคลุมเครือแก้ปัญหาความคลุมเครือของภาษาไทย แล้ว เนื่องจากปัญหาความคลุมเครือในภาษาไทยมีพฤฒิกรรมคล้าย ๆ กับปรากฏการณ์ทาง พันธุศาสตร์ ประกอบกับในปัจจุบันนักวิจัยทั้งไทยและเทศกลุ่มหนึ่งสนใจการแก้ไขปัญหาโดย ใช้หลักการทางพันธุศาสตร์ช่วย ซึ่งเป็นการแก้ปัญหาโดยการเลียนแบบธรรมชาติของพันธุ กรรม เรียกว่าวิธีการเชิงพันธุศาสตร์ ที่อาศัยหลักสมมติฐานที่ว่า ถ้าเราคัดยีนที่มีลักษณะดีของ พ่อมาผสมกับยีนที่มีลักษณะดีของแม่ ก็จะได้พันธ์ใหม่ที่มีลักษณะดีกว่าทั้งพ่อและแม่

ยกตัวอย่างกรณีของการสังเคราะห์เสียงพูดคำว่า “ลินคอล์น” เราจะเห็นว่าหน่วยเสียง “ลิ้น” มียีนที่ดีคือ มีอักษรนำ สระต้น และตัวสะกดเหมือนกับ “ลิน” ซึ่งเป็นหน่วยเสียงเป้า หมาย มียีนด้อยคือ เสียงโทซึ่งแตกต่างไป และ ”ลิง” มียีนที่มีลักษณะดีคือ อักษรนำ สระต้น และเสียงสามัญเหมือน “ลิน” ยีนที่ด้อยคือตัวสะกดที่ไม่เหมือนกัน ดังนั้นถ้าเราตัดยีนที่ด้อย ของทั้ง “ลิ้น” และ “ลิง” ทิ้งไปแล้วนำเฉพาะยีนที่ดีทั้งหมดของทั้งสองมาผสมพันธุ์กันเราก็จะ ได้หน่วยเสียงใหม่ที่มีความใกล้เคียง ”ลิน” มากกว่าทั้ง “ลิ้น” และ ”ลิง” ซึ่งเป็นพันธุพ่อและ แม่เป็นต้น สำหรับท่านที่สนใจวิธีการนี้อย่างลึกซึ้ง ผมขอแนะนำตำราของ ศาสตราจารย์ ดร. ชิดชนก เหลือสินทรัพย์ ชื่อ “การวิเคราะห์และออกแบบอัลกอริธึม” ครับ

สรุป

เมื่อภาษาไทยมีความคลุมเครือเพิ่มขึ้นตามธรรมชาติแห่งพันธุกรรมของมนุษย์ เครื่อง คอมพิวเตอร์ที่ใช้ช่วยแก้ปัญหาในอนาคต อาจต้องใช้กระบวนการทางธรรมชาติเช่นเดียวกับ ธรรมชาติของมนุษย์ก็อาจเป็นได้


This page hosted by   Get your own Free Home Page 1