PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.
KEYWORDS
Thai Natural Language Processing Lab., words
segmentation, dictionaries, algorithms, Thai text-to-speech.
การสังเคราะห์เสียงพูดภาษาไทยสำหรับคำที่ไม่รู้จัก
Morphological Derivative for Unknown Words in Thai text-to-speech Synthesis
Pisit Promchan,
Wittaya Wongvachirapanich,
Saanti Chinnakarn
[Full paper in pdf format]
บทคัดย่อ: บทความนี้นำเสนอผลการวิจัยและพัฒนาสร้างระบบการสังเคราะห์เสียงพูด
ภาษาไทยที่นอกจากมีความสามารถในการพูดหรืออ่านคำทั่ว ๆ ไปได้ดีแล้ว ยังมีความสามารถใน
การผันเสียงเพื่อการอ่านคำที่ไม่รู้จักหรือคำที่ไม่ปรากฎในพจนานุกรมได้ ที่ระดับความแม่นยำ
(Precision) สูงมากพอสมควรที่เดียว ทีมงานวิจัยได้ประยุกต์ใช้หลักแนวคิดปรัชญาตรรกแห่งความ
คลุมเครือ (Fuzzy Logic) เป็นเครื่องมือหลักในการแก้ปัญหาในการสังเคราะห์คำที่ไม่รู้จักเหล่านั้น
ในงานวิจัยนี้ได้นำเสนอแนวทางเบื้องต้นของตรรกแห่งความคลุมเครือ สถาปัตยกรรมของระบบที่ได้
ออกแบบไว้ ขั้นตอนวิธีการทำวจีวิภาค การประมาณหน่วยเสียงไกล้เคียงหรือขั้นตอนของการคำณ
วนหาสัดส่วนของการเป็นสมาชิกในเซ็ตของความคลุมเครือ และผลการทดสอบประเมินประสิทธิ
ภาพของระบบ พบว่าในกรณีของภาษาไทยทั่ว ๆ ระบบมีความแม่นยำเฉลี่ย 99.59% และในกรณี
ของข้อความที่ประกอบด้วยคำที่ไม่รู้จักทั้งหมดระบบมีความแม่นยำเฉลี่ย 96.69% ตำแหน่งที่มี
ความแม่นยำและในเวลาเดียวกันมีความครอบคลุม (Recall) สูงสุดคือประมาณ 98% และ 88%
ในกรณีของภาษาไทยทั่ว ๆ และในกรณีของข้อความที่ประกอบด้วยคำที่ไม่รู้จักทั้งหมดตามลำดับ
Abstract: This paper presents the morphological derivative for unknown words in Thai
text-to-speech synthesis. The research methodology is based on the philosophy of fuzzy
logic theory. The paper contains the basic idea of the fuzzy logic, the system
architecture, parsing algorithm, approximation matching algorithm for Thai or the fuzzy
value calculation. The experimental and performance evaluations are also included. It is
found that the system performs up-to 99.59% of precision in case of the Thai text data
contain both known and unknown words. The system perform up-to 96.69% in term of
precision in case of the Thai text data contains purely unknown. The highest intersection
point between precision and recall are about 98% and 88% for Thai text data contain
both known and unknown words and the Thai text data contains purely unknown
respectively.
Keywords: Thai Text-to-Speech, Synthesis, Parsing, Unknown Word Identification,
Approximate Matching, Algorithms, CTI, Fuzzy Logic
This page hosted by
Get your own Free Home Page