PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.
KEYWORDS
Thai Natural Language Processing Lab., words
segmentation, dictionaries, algorithms, Thai text-to-speech.
บทคัดย่อ
งานวิจัยนี้ได้ทำการวิเคราะห์ หาแนวทางในการเปรียบเทียบสมรรถนะของโปรแกรมและอัลกอริธึมตัดคำภาษาไทย โดยเริ่มจากการสังเคราะห์ตัวอย่างมาตรวัด ที่จะใช้ในการวัดและเปรียบเทียบประสิทธิภาพ ศึกษาคุณลักษณะเฉพาะของเอกสารภาษาไทย ที่มีผลต่อประสิทธิภาพของโปรแกรมตัดคำภาษาไทย รวบรวมโปรแกรมและอัลกอริธึมตัดคำภาษาไทย ที่ได้มีการพัฒนาและเผยแพร่ใช้งานในปัจจุบัน รวบรวมข้อมูลภาษาไทยที่ใช้อ้างอิง รวมไปถึงพจนานุกรมที่ใช้ในการตรวจสอบความถูกต้องของการตัดคำ จากนั้นจึงทำการพัฒนาวิธีการวัดประสิทธิภาพ และทำการวัดประสิทธิภาพ
จากผลการวัดประสิทธิภาพพบว่าแบบเปรียบเทียบคำที่ยาวที่สุดจะตัดได้จำนวนคำที่ถูกต้องออกมามากที่สุด แบบการแก้ไขย้อนกลับจะได้คำผิดน้อยที่สุด แบบอาศัยความถี่ของการใช้คำจะได้อัตราความถูกต้องต่อจำนวนคำในพจนานุกรมสูงสุด แบบใช้พจนานุกรมลดความกำกวมสามารถจัดการกับคำกำกวมได้ดีที่สุด และแบบเปรียบเทียบคำที่สั้นที่สุดจะตัดออกมาได้จำนวนคำสูงสุด นอกจากนี้พบว่าโครงสร้างข้อมูลสำหรับพจนานุกรมที่ใช้ในโปรแกรมตัดคำมีผลมากในด้านความเร็ว โดยที่โครงสร้างข้อมูลแบบทรัยให้ความเร็วสูงสุดในปัจจุบัน
A Thesis Submitted in Partial Fulfillment of the Requirements
for the Degree of Master of Science in Computer Science
Department of Computer Engineering
Graduate School
Chulalongkorn University
Academic Year 1997
ISBN 974-638-133-4
This page hosted by
Get your own Free Home Page