PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.
KEYWORDS
Thai Natural Language Processing Lab., words
segmentation, dictionaries, algorithms, Thai text-to-speech.
งมเข็มในมหาสมุทรไอที
พิสิทธิ์ พรมจันทร์
บริษัท เทเลคอมเอเซีย คอร์ปอเรชั่น จำกัด (มหาชน)
กล่าวนำ
ข้อมูลข่าวสารสารสนเทศมากมายที่ผลิตออกมานับตั้งแต่มนุษย์รู้จักที่จะสื่อสารถึงกัน
และกันคือกุญแจสำคัญที่ก่อให้เกิดการพัฒนาก้าวล้ำนำหน้าของมวลมนุษยชาติ ไม่ว่าจะเป็น
ข่าวสารประจำวัน บันทึกการพูดคุยแสดงความคิดเห็นของกลุ่มต่าง ๆ บทความวิชาการ ราย
งานสรุปผลการค้นคว้าวิจัย วิสัยทัศน์ นโยบาย กลยุทธ์ ตลอดจนผลการดำเนินงานขององค์กร
ต่าง ๆ ฐานข้อมูลประชากร รายงานสภาพอากาศ กฎหมายต่าง ๆ ข้อมูลทางเศรษฐกิจ สังคม
วิทยาศาสตร์ สิ่งแวดล้อม ปรัชญา ประวัติศาสตร์ เป็นต้น เมื่อเครือข่ายอินเตอร์เน็ตปรากฏ
ออกมา ข้อมูลต่าง ๆ ที่เราต่างเก็บรวบรวมกันไว้เหล่านั้น ได้ไหลเชื่อมโยงเข้าด้วยกันเปรียบ
ประดุจแม่น้ำหลากสายไหลมาบรรจบพบกันกลายเป็นมหาสมุทรไอทีอันกว้างใหญ่และลึกล้ำ
การสืบค้นข้อมูลจากมหาสมุทรไอทีนี้เป็นเรื่องที่น่าสนใจ เครื่องมือที่ทรงประสิทธิภาพในการ
สืบค้นคว้าและวิเคราะห์ข้อมูลจึงเป็นสิ่งจำเป็นของมนุษย์ในโลกยุคข้อมูลข่าวสารในปัจจุบันนี้
และอนาคต
เทคโนโลยีการสืบค้นข้อมูล
เทคโนโลยีการสืบค้นข้อมูล (Information Retrieval) ก่อกำเนิดมายาวนานพร้อม ๆ
กับวิชาการทางวิทยาศาสตรคอมพิวเตอร์ เทคโนโลยีนี้คือเทคโนโลยีที่มีเป้าหมายหลักสอง
ประการคือความสามารถค้นคืน (Recall) ซึ่งหมายถึงการสืบค้นหาข้อมูลข่าวสารสารสนเทศที่
มีความเกี่ยวข้องกับสิ่งที่เราสนใจให้ได้มากที่สุด และความแม่นยำในการสืบค้น (Precision) ซึ่ง
หมายถึงความสามารถในการกำจัดข้อมูลข่าวสารที่ไม่เกี่ยวข้องออกไปให้มากที่สุด เทคโนโลยีนี้
ได้ทำให้นิสิตธรรมดา ๆ คนหนึ่งอย่าง เจอร์รี่ หยาง กลายเป็นมหาเศรษฐีของโลกภายในชั่ว
ข้ามคืนเมื่อเขาร่วมกับเพื่อนประยุกต์นำวิชาการด้านนี้มาสร้างแม่ข่ายสืบค้นข้อมูลบน
อินเตอร์เน็ตบริการผู้คนภายใต้ชื่อแปลก ๆ คือ ยาฮู ซึ่งใช้เทคโนโลยีการสืบค้นข้อมูลของ
บริษัท อิงค์โทมิ เป็นหลัก
ในปัจจุบันนอกจากยาฮูแล้วยังมีผู้ให้บริการสืบค้นข้อมูลบนอินเตอร์เน็ตอีกหลายรายที่
มีความสามารถไม่ยิ่งหย่อนไปกว่ากันยกตัวอย่างเช่น แอลตาวิสตา อินโฟซีก ฮอทบอท
ไลน์คอส เอกไซท์ เป็นต้น และที่เด่นมากอีกรายคือ เดจาส์ ซึ่งให้บริการสืบค้นข้อ
สนทนาของกลุ่มสนทนาต่าง ๆ ทั่วโลก
ความแม่นยำและความสามารถค้นคืน
ความต้องการการสืบค้นที่มีความแม่นยำสูง (high precision) หรือมีความสามารถค้น
คืนสูง (high recall) อาจแปรเปลี่ยนได้ตามกาละและเทศะ กล่าวคือในบางกรณีผู้ใช้งานอาจ
ต้องการการสืบค้นที่มีความสามารถค้นคืนสูง ซึ่งจะพบในการสืบค้นแบบกว้าง ๆ ยกตัวอย่าง
เช่นถ้าเราต้องการสืบค้นประวัติของนายกรัฐมนตรีของไทยทุกคน และอีกตัวอย่างหนึ่งที่
ต้องการการสืบค้นที่มีความแม่นยำสูงคือการสืบค้นแบบเฉพาะเจาะจง เช่นเราต้องการสืบค้น
ประวัติของนายกรัฐมนตรีไทยที่เคยแสดงวิวาทะกับพระพุทธทาสเรื่อง จิตว่าง จะเห็นได้ว่า
การสืบค้นที่ต้องการความสามารถค้นคืนสูงมีความต้องการคำสำคัญ (keyword) น้อย เช่นจาก
ตัวอย่างแรกเราต้องการคำสำคัญเดียวคือคำว่า นายกรัฐมนตรี ก็พอเพียงในขณะที่ตัวอย่างที่
สองเราอาจต้องใช้คำสำคัญหลายคำเช่น นายกรัฐมนตรี นักปราชญ์ ปากจัด รักสุนัข
เป็นต้น
การทำงานของระบบสืบค้นข้อมูลทั่วไปเมื่อมีความแม่นยำสูงจะมีความสามารถค้นคืน
ต่ำและในทางกลับกันถ้าความสามารถค้นคืนสูงความแม่นยำจะต่ำ เพื่อแก้ปัญหานี้ระบบการ
สืบค้นข้อมูลส่วนใหญ่จึงได้มีการออกแบบภาษาการสืบค้นข้อมูล เพื่อสร้างสูตรการสืบค้นที่
สามารถกำหนดเงื่อนไขการสืบค้นเช่น และ หรือ ไม่ ติดกัน รวม ไม่รวม ภาษา
สืบค้นนี้ทำให้ได้ระบบที่ให้ความแม่นยำและความสามารถค้นคืนสูงในเวลาเดียวกันแต่มีปัญหา
ที่ความไม่เป็นมาตรฐานเดียวกันของผู้ให้บริการแต่ละรายเช่น ยาฮูใช้สัญลักษณ์ต่าง ๆ แทน
สูตรการสืบค้นเช่น เครื่องหมายบวกแทนการรวม เครื่องหมายลบแทนการไม่รวมคำสำคัญใน
การสืบค้น ขณะที่รายอื่นใช้ตัวย่อแทนเช่น AND OR NOT EXC ADJ เป็นต้น การใช้ภาษาธรรม
ชาติจึงเป็นแนวทางหนึ่งที่มีผู้ให้ความสนใจสูงทีเดียว
การประมวลผลภาษาธรรมชาติกับการสืบค้นข้อมูล
เทคโนโลยีการประมวลผลภาษาธรรมชาติมีประโยชน์เกี่ยวพันกับเทคโนโลยีการสืบค้น
ข้อมูลมากเนื่องจากฐานข้อมูลที่จัดเก็บในระบบการสืบค้นข้อมูลจะเป็นข้อมูลที่ใช้ภาษาธรรม
ชาติอยู่แล้วไม่มีการจัดสร้างรูปแบบการจัดเก็บเป็นพิเศษแต่อย่างไร นอกจากนี้การประมวลผล
ภาษาธรรมชาติมีส่วนช่วยให้ผู้ใช้งานมีความสะดวกสบายที่จะสร้างรูปแบบการสืบค้นที่ซับซ้อน
โดยจะช่วยแก้ปัญหาความไม่มีมาตรฐานของภาษาสืบค้นดังกล่าวมาแล้ว
การประมวลผลภาษาธรรมชาติแบ่งได้เป็นหกระดับใหญ่ ๆ คือ ระดับหน่วยเสียง
(Phonological) ระดับการผันเสียงเป็นคำ (Morphological) ระดับพจนานุกรม (Lexical)
ระดับกฎเกณท์ (Syntactic) ระดับความหมาย (Semantic) และระดับเชิงปฏิบัติจริง
(Pragmatic) ในโอกาสข้างหน้าผู้เขียนจะได้กล่าวในรายละเอียดสำหรับเทคโนโลยีด้านนี้และ
ผลกระทบกับชีวิตของพวกเรา
สำหรับภาษาไทยมีกลุ่มนักวิจัยคนไทยทำการวิจัยการสืบค้นข้ามภาษาไทยและต่าง
ประเทศได้เพื่อเพิ่มความสามารถค้นคืนในกรณีของภาษาไทย เช่นผู้ใช้ป้อนคำสำคัญว่า สาร
สนเทศ ระบบสามารถให้ผลการสืบค้นกับเอกสารที่มีคำต่าง ๆ เหล่านี้ปรากฏอยู่คือ ไอที
Information Technology เป็นต้น สืบเนื่องจากปัจจุบันการใช้ภาษาไทยทับศัพท์หรือการใช้
ร่วมกับภาษาต่างประเทศสามารถพบได้อย่างกว้างขวางในชีวิตประจำวัน
การจัดเก็บฐานข้อมูลและการทำดัชนี
มีงานวิจัยของทั้งคนไทยและต่างชาติพบว่าในเอกสารใด ๆ ไม่ว่าจะมีขนาดใหญ่เล็กต่าง
กันเพียงใดโดยทั่วไปแล้วจะมีคุณสมบัติพิเศษที่น่าสนใจคือการใช้คำศัพท์ใหม่จะเพิ่มขึ้นอย่าง
รวดเร็วในตอนต้น ๆ เอกสาร และจะค่อย ๆ เพิ่มขึ้นช้าลงจนเกือบไม่เพิ่มเลยที่ตอนกลาง ๆ ไป
จนถึงท้ายเอกสาร มีการทดลองใช้เอกสารภาษาไทยในชีวิตประจำวันหลาย ๆ เอกสารมีขนาด
นับล้านตัวอักษรมาวิเคราะห์ดูพบว่ามีการใช้คำศัพท์ทั้งหมดเพียงแค่สามพันกว่าคำเท่านั้นและ
คำที่มีความถี่ในการใช้งานสูงและต่ำมาก ๆ จะเป็นคำที่มีผลต่อเนื้อหาใจความของเอกสารน้อย
เช่นคำว่า และ ที่ ก็ the of and to เป็นต้น
ดังนั้นในระบบการสืบค้นข้อมูลจึงมีการทำหมวดหมู่ ประเภทของข้อมูลข่าวสารรวมถึง
การใช้คำที่มีผลต่อเนื้อหาใจความสูงมาทำดัชนีของข้อมูลชี้ไปที่เนื้อเอกสารจริง ๆ ที่กระจายกัน
อยู่ตามแม่ข่ายข้อมูลต่าง ๆ ทั่วโลกเพื่อเพิ่มประสิทธิภาพของการสืบค้นที่รวดเร็ว คุณภาพของ
ดัชนีและประเภทของข้อมูลของแม่ข่ายสืบค้นข้อมูลแต่ละที่จึงแตกต่างกันไป
สรุป
เครื่องมือสืบค้นข้อมูลมีประโยชน์มากกับชีวิตของเราในยุคข้อมูลข่าวสารนี้ ความเข้าใจ
หลักพื้นฐานของเทคโนโลยีการสืบค้นข้อมูลช่วยให้เราสามารถใช้เครื่องมือนี้ได้อย่างมีประสิทธิ
ผลและประสิทธิภาพเพื่อ งมเข็มเล่มที่พวกเราสนใจในมหาสมุทรไอทีอันกว้างใหญ่ไพศาลนี้
This page hosted by
Get your own Free Home Page