PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.

KEYWORDS
Thai Natural Language Processing Lab., words segmentation, dictionaries, algorithms, Thai text-to-speech.
การสังเคราะห์เสียงพูดภาษาไทยสำหรับคำที่ไม่รู้จัก
Morphological Derivative for Unknown Words in Thai text-to-speech Synthesis

Pisit Promchan,
Wittaya Wongvachirapanich,
Saanti Chinnakarn

[Full paper in pdf format]

บทคัดย่อ: บทความนี้นำเสนอผลการวิจัยและพัฒนาสร้างระบบการสังเคราะห์เสียงพูด ภาษาไทยที่นอกจากมีความสามารถในการพูดหรืออ่านคำทั่ว ๆ ไปได้ดีแล้ว ยังมีความสามารถใน การผันเสียงเพื่อการอ่านคำที่ไม่รู้จักหรือคำที่ไม่ปรากฎในพจนานุกรมได้ ที่ระดับความแม่นยำ (Precision) สูงมากพอสมควรที่เดียว ทีมงานวิจัยได้ประยุกต์ใช้หลักแนวคิดปรัชญาตรรกแห่งความ คลุมเครือ (Fuzzy Logic) เป็นเครื่องมือหลักในการแก้ปัญหาในการสังเคราะห์คำที่ไม่รู้จักเหล่านั้น ในงานวิจัยนี้ได้นำเสนอแนวทางเบื้องต้นของตรรกแห่งความคลุมเครือ สถาปัตยกรรมของระบบที่ได้ ออกแบบไว้ ขั้นตอนวิธีการทำวจีวิภาค การประมาณหน่วยเสียงไกล้เคียงหรือขั้นตอนของการคำณ วนหาสัดส่วนของการเป็นสมาชิกในเซ็ตของความคลุมเครือ และผลการทดสอบประเมินประสิทธิ ภาพของระบบ พบว่าในกรณีของภาษาไทยทั่ว ๆ ระบบมีความแม่นยำเฉลี่ย 99.59% และในกรณี ของข้อความที่ประกอบด้วยคำที่ไม่รู้จักทั้งหมดระบบมีความแม่นยำเฉลี่ย 96.69% ตำแหน่งที่มี ความแม่นยำและในเวลาเดียวกันมีความครอบคลุม (Recall) สูงสุดคือประมาณ 98% และ 88% ในกรณีของภาษาไทยทั่ว ๆ และในกรณีของข้อความที่ประกอบด้วยคำที่ไม่รู้จักทั้งหมดตามลำดับ

Abstract: This paper presents the morphological derivative for unknown words in Thai text-to-speech synthesis. The research methodology is based on the philosophy of fuzzy logic theory. The paper contains the basic idea of the fuzzy logic, the system architecture, parsing algorithm, approximation matching algorithm for Thai or the fuzzy value calculation. The experimental and performance evaluations are also included. It is found that the system performs up-to 99.59% of precision in case of the Thai text data contain both known and unknown words. The system perform up-to 96.69% in term of precision in case of the Thai text data contains purely unknown. The highest intersection point between precision and recall are about 98% and 88% for Thai text data contain both known and unknown words and the Thai text data contains purely unknown respectively.

Keywords: Thai Text-to-Speech, Synthesis, Parsing, Unknown Word Identification, Approximate Matching, Algorithms, CTI, Fuzzy Logic


This page hosted by   Get your own Free Home Page 1