Information Retrieval Technology

PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.
KEYWORDS
Thai Natural Language Processing Lab., words segmentation, dictionaries, algorithms, Thai text-to-speech.

งมเข็มในมหาสมุทรไอที
พิสิทธิ์ พรมจันทร์
บริษัท เทเลคอมเอเซีย คอร์ปอเรชั่น จำกัด (มหาชน)

กล่าวนำ

ข้อมูลข่าวสารสารสนเทศมากมายที่ผลิตออกมานับตั้งแต่มนุษย์รู้จักที่จะสื่อสารถึงกัน และกันคือกุญแจสำคัญที่ก่อให้เกิดการพัฒนาก้าวล้ำนำหน้าของมวลมนุษยชาติ ไม่ว่าจะเป็น ข่าวสารประจำวัน บันทึกการพูดคุยแสดงความคิดเห็นของกลุ่มต่าง ๆ บทความวิชาการ ราย งานสรุปผลการค้นคว้าวิจัย วิสัยทัศน์ นโยบาย กลยุทธ์ ตลอดจนผลการดำเนินงานขององค์กร ต่าง ๆ ฐานข้อมูลประชากร รายงานสภาพอากาศ กฎหมายต่าง ๆ ข้อมูลทางเศรษฐกิจ สังคม วิทยาศาสตร์ สิ่งแวดล้อม ปรัชญา ประวัติศาสตร์ เป็นต้น เมื่อเครือข่ายอินเตอร์เน็ตปรากฏ ออกมา ข้อมูลต่าง ๆ ที่เราต่างเก็บรวบรวมกันไว้เหล่านั้น ได้ไหลเชื่อมโยงเข้าด้วยกันเปรียบ ประดุจแม่น้ำหลากสายไหลมาบรรจบพบกันกลายเป็นมหาสมุทรไอทีอันกว้างใหญ่และลึกล้ำ การสืบค้นข้อมูลจากมหาสมุทรไอทีนี้เป็นเรื่องที่น่าสนใจ เครื่องมือที่ทรงประสิทธิภาพในการ สืบค้นคว้าและวิเคราะห์ข้อมูลจึงเป็นสิ่งจำเป็นของมนุษย์ในโลกยุคข้อมูลข่าวสารในปัจจุบันนี้ และอนาคต

เทคโนโลยีการสืบค้นข้อมูล

เทคโนโลยีการสืบค้นข้อมูล (Information Retrieval) ก่อกำเนิดมายาวนานพร้อม ๆ กับวิชาการทางวิทยาศาสตรคอมพิวเตอร์ เทคโนโลยีนี้คือเทคโนโลยีที่มีเป้าหมายหลักสอง ประการคือความสามารถค้นคืน (Recall) ซึ่งหมายถึงการสืบค้นหาข้อมูลข่าวสารสารสนเทศที่ มีความเกี่ยวข้องกับสิ่งที่เราสนใจให้ได้มากที่สุด และความแม่นยำในการสืบค้น (Precision) ซึ่ง หมายถึงความสามารถในการกำจัดข้อมูลข่าวสารที่ไม่เกี่ยวข้องออกไปให้มากที่สุด เทคโนโลยีนี้ ได้ทำให้นิสิตธรรมดา ๆ คนหนึ่งอย่าง “เจอร์รี่ หยาง” กลายเป็นมหาเศรษฐีของโลกภายในชั่ว ข้ามคืนเมื่อเขาร่วมกับเพื่อนประยุกต์นำวิชาการด้านนี้มาสร้างแม่ข่ายสืบค้นข้อมูลบน อินเตอร์เน็ตบริการผู้คนภายใต้ชื่อแปลก ๆ คือ “ยาฮู” ซึ่งใช้เทคโนโลยีการสืบค้นข้อมูลของ บริษัท “อิงค์โทมิ” เป็นหลัก

ในปัจจุบันนอกจากยาฮูแล้วยังมีผู้ให้บริการสืบค้นข้อมูลบนอินเตอร์เน็ตอีกหลายรายที่ มีความสามารถไม่ยิ่งหย่อนไปกว่ากันยกตัวอย่างเช่น “แอลตาวิสตา” “อินโฟซีก” “ฮอทบอท” “ไลน์คอส” “เอกไซท์” เป็นต้น และที่เด่นมากอีกรายคือ “เดจาส์” ซึ่งให้บริการสืบค้นข้อ สนทนาของกลุ่มสนทนาต่าง ๆ ทั่วโลก

ความแม่นยำและความสามารถค้นคืน

ความต้องการการสืบค้นที่มีความแม่นยำสูง (high precision) หรือมีความสามารถค้น คืนสูง (high recall) อาจแปรเปลี่ยนได้ตามกาละและเทศะ กล่าวคือในบางกรณีผู้ใช้งานอาจ ต้องการการสืบค้นที่มีความสามารถค้นคืนสูง ซึ่งจะพบในการสืบค้นแบบกว้าง ๆ ยกตัวอย่าง เช่นถ้าเราต้องการสืบค้นประวัติของนายกรัฐมนตรีของไทยทุกคน และอีกตัวอย่างหนึ่งที่ ต้องการการสืบค้นที่มีความแม่นยำสูงคือการสืบค้นแบบเฉพาะเจาะจง เช่นเราต้องการสืบค้น ประวัติของนายกรัฐมนตรีไทยที่เคยแสดงวิวาทะกับพระพุทธทาสเรื่อง “จิตว่าง” จะเห็นได้ว่า การสืบค้นที่ต้องการความสามารถค้นคืนสูงมีความต้องการคำสำคัญ (keyword) น้อย เช่นจาก ตัวอย่างแรกเราต้องการคำสำคัญเดียวคือคำว่า “นายกรัฐมนตรี” ก็พอเพียงในขณะที่ตัวอย่างที่ สองเราอาจต้องใช้คำสำคัญหลายคำเช่น “นายกรัฐมนตรี” “นักปราชญ์” “ปากจัด” “รักสุนัข” เป็นต้น

การทำงานของระบบสืบค้นข้อมูลทั่วไปเมื่อมีความแม่นยำสูงจะมีความสามารถค้นคืน ต่ำและในทางกลับกันถ้าความสามารถค้นคืนสูงความแม่นยำจะต่ำ เพื่อแก้ปัญหานี้ระบบการ สืบค้นข้อมูลส่วนใหญ่จึงได้มีการออกแบบภาษาการสืบค้นข้อมูล เพื่อสร้างสูตรการสืบค้นที่ สามารถกำหนดเงื่อนไขการสืบค้นเช่น “และ” “หรือ” “ไม่” “ติดกัน” “รวม” “ไม่รวม” ภาษา สืบค้นนี้ทำให้ได้ระบบที่ให้ความแม่นยำและความสามารถค้นคืนสูงในเวลาเดียวกันแต่มีปัญหา ที่ความไม่เป็นมาตรฐานเดียวกันของผู้ให้บริการแต่ละรายเช่น ยาฮูใช้สัญลักษณ์ต่าง ๆ แทน สูตรการสืบค้นเช่น เครื่องหมายบวกแทนการรวม เครื่องหมายลบแทนการไม่รวมคำสำคัญใน การสืบค้น ขณะที่รายอื่นใช้ตัวย่อแทนเช่น AND OR NOT EXC ADJ เป็นต้น การใช้ภาษาธรรม ชาติจึงเป็นแนวทางหนึ่งที่มีผู้ให้ความสนใจสูงทีเดียว

การประมวลผลภาษาธรรมชาติกับการสืบค้นข้อมูล

เทคโนโลยีการประมวลผลภาษาธรรมชาติมีประโยชน์เกี่ยวพันกับเทคโนโลยีการสืบค้น ข้อมูลมากเนื่องจากฐานข้อมูลที่จัดเก็บในระบบการสืบค้นข้อมูลจะเป็นข้อมูลที่ใช้ภาษาธรรม ชาติอยู่แล้วไม่มีการจัดสร้างรูปแบบการจัดเก็บเป็นพิเศษแต่อย่างไร นอกจากนี้การประมวลผล ภาษาธรรมชาติมีส่วนช่วยให้ผู้ใช้งานมีความสะดวกสบายที่จะสร้างรูปแบบการสืบค้นที่ซับซ้อน โดยจะช่วยแก้ปัญหาความไม่มีมาตรฐานของภาษาสืบค้นดังกล่าวมาแล้ว

การประมวลผลภาษาธรรมชาติแบ่งได้เป็นหกระดับใหญ่ ๆ คือ ระดับหน่วยเสียง (Phonological) ระดับการผันเสียงเป็นคำ (Morphological) ระดับพจนานุกรม (Lexical) ระดับกฎเกณท์ (Syntactic) ระดับความหมาย (Semantic) และระดับเชิงปฏิบัติจริง (Pragmatic) ในโอกาสข้างหน้าผู้เขียนจะได้กล่าวในรายละเอียดสำหรับเทคโนโลยีด้านนี้และ ผลกระทบกับชีวิตของพวกเรา

สำหรับภาษาไทยมีกลุ่มนักวิจัยคนไทยทำการวิจัยการสืบค้นข้ามภาษาไทยและต่าง ประเทศได้เพื่อเพิ่มความสามารถค้นคืนในกรณีของภาษาไทย เช่นผู้ใช้ป้อนคำสำคัญว่า “สาร สนเทศ” ระบบสามารถให้ผลการสืบค้นกับเอกสารที่มีคำต่าง ๆ เหล่านี้ปรากฏอยู่คือ “ไอที” “Information Technology” เป็นต้น สืบเนื่องจากปัจจุบันการใช้ภาษาไทยทับศัพท์หรือการใช้ ร่วมกับภาษาต่างประเทศสามารถพบได้อย่างกว้างขวางในชีวิตประจำวัน

การจัดเก็บฐานข้อมูลและการทำดัชนี

มีงานวิจัยของทั้งคนไทยและต่างชาติพบว่าในเอกสารใด ๆ ไม่ว่าจะมีขนาดใหญ่เล็กต่าง กันเพียงใดโดยทั่วไปแล้วจะมีคุณสมบัติพิเศษที่น่าสนใจคือการใช้คำศัพท์ใหม่จะเพิ่มขึ้นอย่าง รวดเร็วในตอนต้น ๆ เอกสาร และจะค่อย ๆ เพิ่มขึ้นช้าลงจนเกือบไม่เพิ่มเลยที่ตอนกลาง ๆ ไป จนถึงท้ายเอกสาร มีการทดลองใช้เอกสารภาษาไทยในชีวิตประจำวันหลาย ๆ เอกสารมีขนาด นับล้านตัวอักษรมาวิเคราะห์ดูพบว่ามีการใช้คำศัพท์ทั้งหมดเพียงแค่สามพันกว่าคำเท่านั้นและ คำที่มีความถี่ในการใช้งานสูงและต่ำมาก ๆ จะเป็นคำที่มีผลต่อเนื้อหาใจความของเอกสารน้อย เช่นคำว่า “และ” “ที่” “ก็” “the” “of” “and” “to” เป็นต้น

ดังนั้นในระบบการสืบค้นข้อมูลจึงมีการทำหมวดหมู่ ประเภทของข้อมูลข่าวสารรวมถึง การใช้คำที่มีผลต่อเนื้อหาใจความสูงมาทำดัชนีของข้อมูลชี้ไปที่เนื้อเอกสารจริง ๆ ที่กระจายกัน อยู่ตามแม่ข่ายข้อมูลต่าง ๆ ทั่วโลกเพื่อเพิ่มประสิทธิภาพของการสืบค้นที่รวดเร็ว คุณภาพของ ดัชนีและประเภทของข้อมูลของแม่ข่ายสืบค้นข้อมูลแต่ละที่จึงแตกต่างกันไป

สรุป

เครื่องมือสืบค้นข้อมูลมีประโยชน์มากกับชีวิตของเราในยุคข้อมูลข่าวสารนี้ ความเข้าใจ หลักพื้นฐานของเทคโนโลยีการสืบค้นข้อมูลช่วยให้เราสามารถใช้เครื่องมือนี้ได้อย่างมีประสิทธิ ผลและประสิทธิภาพเพื่อ งมเข็มเล่มที่พวกเราสนใจในมหาสมุทรไอทีอันกว้างใหญ่ไพศาลนี้

This page hosted by

Get your own Free Home Page