DATA MINING คืออะไร
การทำเหมืองข้อมูล (Data Mining) คือ การหารูปแบบ (pattern) อะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมากData Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทำรายงาน และโปรแกรมในการจัดการ ซึ่งเราคุ้นเคยดีกับคำว่า Executive Information System ( EIS ) หรือระบบข้อมูลสำหรับการตัดสินใจในการบริหาร ซึ่งเป็นเครื่องมือชิ้นใหม่ที่สามารถค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่หรือข้อมูลที่เป็นประโยชน์ในการบริหาร ซึ่งเป็นการเพิ่มคุณค่าให้กับฐานข้อมูลที่มีอยู่ระบบสนับสนุนการตัดสินใจ ( Decision Support System) คือทำอย่างไรให้ข้อมูลที่เรามีอยู่กลายเป็นความรู้อันมีค่าได้สร้างคำตอบของอนาคตได้ ดังรูปที่ 1DATA - KNOWLEDGE-DECISION-ACTIONรูปที่ 1 แสดงข้อมูลสู่การตัดสินใจและปฏิบัติ1.ในบริษัทขนาดกลางถึงขนาดเล็ก ขบวนการทำ data mining โดยทั่วไปจะเริ่มจาการตั้งสมมุติฐานทางธุรกิจตามความรู้และความเข้าใจของ user ที่มีต่อธุรกิจ
2. ใช้ระบบ data mining tools โดย user สร้าง model แล้วกลั่นกรองสมมติฐาน ตามด้วยการวิเคราะห์ ซึ่งขบวนการนี้อาจจะต้องมีการทำซ้ำหลาย ๆ ครั้ง
3. หลังจากตรวจสอบแก้ไขสมมติฐานในขั้นสุดท้ายแล้ว user ก็ตัดสินใจปัจจุบันระบบสนับสนุนข้อมูลในการตัดสินใจได้เข้ามามีอิทธิพลในการรวบรวมข้อมูลและปรับค่าข้อมูลในคลังสินค้า ซึ่งฐานข้อมูลขนาดใหญ่นี้จะประกอบไปด้วยข้อมูลเป็นพันๆ ล้านไบต์ ยากแก่การค้นหาได้อย่างทันกาลด้วยวิธี DBMS ( Database Management System ) โดยทั่วไป ข้อมูลที่เป็นที่สนใจของผู้บริหารธุรกิจวันนี้สามารถจะค้นหาได้ง่ายขึ้นแล้ว ซึ่งจะเป็นประโยชน์อย่างยิ่งในการค้นหาข้อมูลที่ต้องการในมหาสมุทรข้อมูลเพื่อนำมาเทียบเคียงและดูแนวโน้ม และนำข้อมูลที่จำเป็นของบริษัทส่งกลับให้ผู้บริหารตัดสินใจได้อย่างทันกาลนี่คือจุดประสงค์ของ Data Mining ที่จะมาช่วยในเรื่องของเทคนิคการจัดการข้อมูล ซึ่งได้พยายามและทดสอบแล้วและข้อมูลสนับสนุนที่มีอาจย้อนหลังไปถึง 30 ปี ด้วยเทคนิคเดียวกันนี้เราสามารถใช้ค้นข้อมูลสำคัญที่ปะปนกับข้อมูลอื่น ๆ ในฐานข้อมูลที่ไม่ใช่แค่การสุ่มหา บางคนเรียกว่า KDD ( Knowledge Discovery in Database ) หรือ การค้นหาข้อมูลด้วยความรู้ และนั่นก็คือ Data Miningสำหรับ Philippe Nieuwbourg ( CXP Information ) กล่าวไว้ว่า “ Data Mining คือ เทคนิคที่ผู้ใช้สามารถปฏิบัติการได้โดยอัตโนมัติ กับ ข้อมูลที่ไม่รู้จัก ซึ่งเป็นการเพิ่มคุณค่า ให้กับข้อมูลที่มี”
วิวัฒนาการของเทคโนโลยีฐานข้อมูล
ในปี 1960 เทคโนโลยีฐานข้อมูลได้เริ่มพัฒนามาจาก file processing พื้นฐาน การค้นคว้าและพัฒนาระบบฐานข้อมูลมีมาเรื่อย ๆปี 1970 ได้นำไปสู่การพัฒนาระบบการเก็บข้อมูลในรูปแบบตาราง ( Ralational Database System ) มีเครื่องมือจัดการโมเดลข้อมูล และมีเทคนิคการใช้อินเด็กซ์และการบริหารข้อมูล นอกจากนี้ผู้ใช้ยังได้รับความสะดวกในการเข้าถึงข้อมูลโดยการใช้ภาษาในการเรียกข้อมูล ( Query Language )ปี 1980 เทคโนโลยีฐานข้อมูลได้เริ่มมีการปรับปรุงและพัฒนาในการหาระบบจัดการที่มีศักยภาพมากขึ้น ความก้าวหน้าในเทคโนโลยี hardware ใน 30 ปีที่ผ่านมา ได้นำไปสู่การจัดเก็บ ข้อมูลจำนวนมากที่มีความซับซ้อนได้อย่างมีประสิทธิภาพเพิ่มขึ้นปี 1990 – ปัจจุบัน สามารถจัดเก็บข้อมูลได้ในหลายรูปแบบ แตกต่างกันทั้งระบบปฏิบัติการ หรือการจัดเก็บฐานข้อมูล ซึ่งการนำข้อมูลทั้งหมดมารวมและจัดเก็บไว้ในรูปแบบเดียวกันเรียกว่า Data Warehouse เพื่อความสะดวกในการจัดการต่อไป ซึ่งเทคโนโลยี Data Warehouse รวมไปถึง Data Cleansing , Data Integration และ On-Line Analytical Processing ( OLAP ) เป็นเทคนิคการวิเคราะห์ข้อมูลในหลาย ๆ มิตินั้นได้เกิดขึ้นมาตามลำดับการละเลยข้อมูล ควบคู่ไปกับการขาดเครื่องมือวิเคราะห์ข้อมูลที่มีศักยภาพ นำไปสู่คำสถานการณ์ที่ว่า “ ข้อมูลมาก แต่ความรู้น้อย ” ( data rich but information poor ) การเติบโตขึ้นอย่างรวดเร็วของข้อมูลจำนวนมากที่สะสมไว้ในฐานข้อมูลขนาดใหญ่มากซึ่งเกินกว่าที่กำลังคนจะสามารถจัดการได้ เป็นผลทำให้มีความจำเป็นที่ต้องมีเครื่องมือที่ช่วยในการวิเคราะห์ข้อมูลและหาความเป็นไปได้ของข้อมูลทั้งหมดที่เป็นประโยชน์ออกมา ซึ่งก็คือ Data Mining
ทำไมจึงต้องมี Data Mining
1.ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็จะไม่เกิดประโยชน์ดังนั้นจึงต้องมีการสกัดสารสนเทศไปใช้การสกัดสารสนเทศ หมายถึง การคัดเลือกข้อมูลออกมาใช้งานในส่วนที่เราต้องการ2.ในอดีตเราใช้คนเป็นผู้สืบค้นข้อมูลต่าง ๆ ในฐานข้อมูลซึ่งผู้สืบค้นจะทำการสร้างเงื่อนไขขึ้นมาตามภูมิปัญญาของผู้สืบค้น3.ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียวอาจไม่ให้ความรู้เพียงพอและลึกซึ้งสำหรับการดำเนินงานภายใต้ภาวะที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่รวดเร็วจึงจำเป็นที่จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “ คลังข้อมูล” ( Data Warehouse)ดังนั้นเราจึงจำเป็นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูลที่มีขนาดใหญ่ เพื่อที่จะนำข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด
ปัจจัยที่ทำให้ Data Mining เป็นที่ได้รับความนิยม
จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support System) เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำการแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว
ประเภทข้อมูลที่สามารถทำ Data Mining
Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย entity-relationship ( ER ) modelData Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ ๆ เดียวกันTransactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายนั้นซื้อ เป็นต้นAdvanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น ข้อมูลแบบ object-oriented , ข้อมูลที่เป็น text file , ข้อมูลมัลติมีเดีย , ข้อมูลในรูปของ webลักษณะเฉพาะของข้อมูลที่สามารถทำ Data Miningข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการจัดการฐานข้อมูลข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจากหลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้นข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลงตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึกฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสมข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง