PISIT' S THAI NATURAL LANGUAGE PROCESSING LABORATORY
This lab is formed since August 26, 1998
e-mail: pisitp@yahoo.com
For C7 members, please check this C7 address list.
KEYWORDS
Thai Natural Language Processing Lab., words
segmentation, dictionaries, algorithms, Thai text-to-speech.
การทำเหมืองสารสนเทศ (Data Mining)
พิสิทธิ์ พรมจันทร์
นักวิเคราะห์ระบบ
บริษัท เทเลคอมเอเซีย คอร์ปอเรชั่น จำกัด (มหาชน)
กล่าวนำ
องค์กรที่มีข้อมูลสารสนเทศปริมาณมากในแต่ละวัน รวมทั้งรายการทางธุรกิจ (Transactions) ย้อนหลังในอดีตที่ผ่านมาโดยเฉพาะรายที่มีการสร้างคลังข้อมูล (Data Warehouse) มีโอกาสที่จะใช้เครื่องมือใหม่สำหรับวิเคราะห์ สืบค้นหา "สินแร่" หรือ "เจ้าตัววายร้าย" ที่ซ่อนเร้นอยู่ในกระบวนการทำธุรกิจนั่นคือ การทำเหมืองสารสนเทศ (Data Mining) ซึ่งคือเทคโนโลยีที่ปรากฎออกมาสำหรับการสืบค้นรูปแบบ (Patterns) การมีส่วนสัมพันธ์ (Associations) การเปลี่ยนแปลง (Changes) ความวิปริต (Anomalies) และโครงสร้างที่สำคัญของข้อมูลอย่างอัตโนมัติ เทคโน
โลยีนี้เป็นเครื่องมือใหม่ที่มนุษย์ศึกษาค้นคว้าพัฒนาขึ้นมาใช้ในการวิเคราะห์ข้อมูลสำหรับธุรกิจ ซึ่งเป็นประโยชน์ในการที่จะช่วยสร้างแบบจำลองการคาดการณ์ (Predictive Modeling) ตัวอย่างเช่น การคาดคะเนผลกำไรที่จะได้จากลูกค้าและกลุ่มเป้าหมาย ความเสียหายที่อาจจะเกิดขึ้นจากการคดโกง การล้มละลาย การโจมตี และปัญหาอื่นๆที่เกี่ยวข้อง เทคโนโลยีนี้มีการศึกษาค้นคว้ามานานกว่าสิบปีแล้ว เช่นที่ ศุนย์ศึกษาดาต้าไมน์นิงแห่งชาติของอเมริกา (The National Center for Data Mining) ที่มหาวิทยาลัยอิลินอยส์ในรัฐชิคาโก โดยนาย กรอสมัน (Robert
Grossman) เป็นผู้อำนวยการ
กระบวนการทำเหมืองข้อมูล
กรอสมัน ได้กล่าวไว้ว่า โดยทั่วไปแล้วการทำเหมืองสารสนเทศจะมีด้วยกันสองบรรทัดฐาน คือ การค้นหาความรู้ (Knowledge Discovery, KD) และการสร้างแบบจำลองการคาดการณ์ (Predictive Modeling, PM) ในทางปฏิบัติแล้วจะประยุกต์ใช้เทคโนโลยีปัญญาประดิษฐ์ (Artificial Intelligence) หรือเทคโนโลยีการเรียนรู้ของเครื่องจักร (Machine Learning) ในการวิเคราะห์ข้อมูลในฐานข้อมูลขนาดใหญ่หรือคลังข้อมูล (Data Warehouse) ในทั้งสองบรรทัดฐานนี้จะใช้ข้อมูลป้อนเข้าคือ เซ็ตของการเรียนรู้ (Learning Sets) เป้าหมายของทั้งสองบรรทัดฐานนี้คือ พยายามที
่จะสร้างกระบวนการที่เป็นแบบอัตโนมัติให้มากที่สุดเท่าที่จะเป็นได้ ในทางปฏิบัติแล้วกระบวนการทำเหมืองสารสนเทศ ไม่ใช่ระบบอัตโนมัติอย่างสมบูรณ์ทั้งหมด แต่เป็นกระบวนการแบบกึ่งอัตโนมัติเท่นั้น ยกตัวอย่าง ผู้ใช้โทรศัพท์มือถือทั่วไป สามารถแบ่งออกเป็นสามกลุ่มคือ กลุ่มที่มีแนวโน้มที่จะเปลี่ยนผู้ให้บริการหรือรูปแบบการใช้บริการสูง ปานกลาง และต่ำ ระบบการทำเหมืองสารสนเทศอาจนำมาใช้เพื่อสืบค้นกฎเกณฑ์ เช่นผู้ใช้งานโทรศัพท์มือถือที่ได้รับการโทรเข้ามากกว่าสองครั้งต่อวัน มีแนวโน้มต่ำที่จะเปลี่ยนแปลงผู้ให้บริการหรือรูปแบบการใช้บ
ริการเป็นต้น กระบวนการทำเหมืองสารสนเทศมีด้วยกันสี่ขั้นคือ
ขั้นแรกเป็นการรวบรวม การจัดรูปแบบ และการแปลงข้อมูลดิบจากแหล่งต่างๆ เพื่อสร้างคลังข้อมูล ขั้นที่สองเป็นการประยุกต์ใช้ขั้นตอนวิธีแบบต่างๆ ของการทำเหมืองสารสนเทศ เข้ากับข้อมูลที่สืบค้นจากคลังข้อมูลเพื่อสร้างแบบจำลองการคาดการณ์ โดยทั่วไปแล้ว ก่อนที่จะทำขั้นนี้ได้ จะมีการเพิ่มคุณลักษณะทางสถิติเพิ่มเติมของข้อมูล ซึ่งวิเคราะห์มาจากคลังข้อมูลก่อน แต่ละองค์กรอาจจะออกแบบจำลองการคาดการณ์หลายๆแบบ แล้วให้คะแนน ซึ่งเกี่ยวกับลูกค้าและรายการทางธุรกิจ (Transactions) ที่เกิดขึ้นจากลูกค้าเหล่านั้น ในขั้นที่สามทำการวิเคราะห์แ
บบจำลองการคาดการณ์เหล่านั้น โดยอาจจะมีการรวมแบบจำลองเข้าด้วยกันถ้าจำเป็น เพื่อสร้างแบบจำลองสรุปเพียงหนึ่งเดียว ในขั้นที่สี่ทำการให้คะแนนกับแบบจำลองการคาดการณ์ที่เหมาะสมที่ได้ โดยใช้ข้อมูลรายการทางธุรกิจที่เกิดขึ้นจากการปฏิบัติงานจริง
สี่ยุคสมัยของการทำเหมืองสารสนเทศ
ยุคแรกของการทำเหมืองสารสนเทศมีเพียงขั้นตอนวิธีเดียวหรือมีจำนวนไม่มากนัก ในปัจจุบันระบบนี้มีออกมาเป็นเชิงพาณิชย์แล้ว ยุคที่สองงานวิจัยในปัจจุบันจะมุ่งเน้นที่การปรับปรุงระบบในยุคแรก โดยจะมีความสามารถเชื่อมต่อกับระบบจัดการฐานข้อมูลและคลังข้อมูล มีการพัฒนาเพิ่มขนาดและฟังก์ชั่นการทำงาน มีการพัฒนาภาษาการสืบค้นการทำเหมืองสารสนเทศ (Data Mining Query Language, DMQL) ยุคที่สามเพิ่มความสามารถให้ทำการวิเคราะห์ข้อมูลอย่างกว้างขวางออกไป เช่นข้อมูลที่อยู่บนอินทราเน็ต และเอ็กซ์ทราเน็ต ยุคที่สี่ ระบบการทำเหมืองสารสนเทศถูกจั
ดให้มีความาสามารถวิเคราะห์ข้อมูลที่เกิดจากอุปกรณ์คำนวณและประมวลผลที่กระจัดกระจายอยู่ทั่วไป เช่นตัวแทนขายใช้เครื่องคอมพิวเตอร์พกพาสำหรับป้อนข้อมูลที่สำนักงานของลูกค้า ระบบการทำเหมืองสารสนเทศ สามารถทำการวิเคราะห์ข้อมูลนั้นได้โดยตรงและให้คำแนะนำที่เหมาะสมได้
สรุป
การใช้ซอฟท์แวร์คอมพิวเตอร์ในการสร้างแบบจำลองการคาดการณ์ทางธุรกิจไม่ใช่ของใหม่ในต่างประเทศ สิ่งที่ใหม่ก็คือ ความต้องการที่จะให้กระบวนการเหล่านี้เป็นระบบอัตโนมัติมากขึ้น การทำเหมืองสารสนเทศเป็นเทคโนโลยีสำคัญที่เป็นประโยชน์กับหลายธุรกิจเช่น โทรคมนาคม เวชภัณฑ์ และผลิตภัณฑ์ทางวิศวกรรม การทำเหมืองสารสนเทศเป็นกระบวนการกึ่งอัตโนมัติสำหรับการค้นพบความรู้และแบบจำลองการคาดการณ์จากคลังข้อมูลเพื่อใช้ประโยชน์ในการดำเนินการทางธุรกิจต่อไป
This page hosted by
Get your own Free Home Page