บทที่ 1 แนะนำการใช้งาน RapidMiner Studio 7

ในบทนี้ผมจะแนะนำให้รู้จักการวิเคราะห์ข้อมูลด้วยวิธีดาต้า ไมน์นิง ซึ่งสามารถทำได้ง่ายๆ โดยการใช้งานซอฟต์แวร์ RapidMiner Studio 7 ครับ อ่านออนไลน์คลิกที่ภาพได้เลยครับ

Screen Shot 2559-01-27 at 10.07.00 PM

1. แนะนำ Data Mining และ RapidMiner Studio 7

คงปฏิเสธไม่ได้ว่าเราได้ก้าวเข้าสู่ยุคที่มีข้อมูลขนาดมหาศาลซึ่งเกิดจากการใช้งานในชีวิตประจำวันของเราเอง เช่น การซื้อสินค้าในซุปเปอร์มาร์เกต หรือ การใช้งานเครือข่ายสังคม (social network) แบบต่างๆ อาทิเช่น เฟซบุค (Facebook) หรือ ทวิตเตอร์ (Twitter) เมื่อข้อมูลมีจำนวนมากขึ้นย่อมทำให้เกิดความต้องการนำข้อมูลเหล่านี้มาใช้เพื่อก่อให้เกิดประโยชน์มากที่สุด วิธีการหนึ่งที่นิยมใช้กันมากในปัจจุบันคือการวิเคราะห์หาความสัมพันธ์ที่ซ่อนอยู่ในข้อมูล วิธีการนี้คือ “การขุดเหมืองข้อมูล” (data mining) หรือเรียกทับศัพท์ว่า ดาต้า ไมน์นิง (ซึ่งในหนังสือเล่มนี้ผมขอเรียกชื่อทับศัพท์เพื่อให้เป็นสากลและเข้าใจได้ง่ายกว่าครับ) การวิเคราะห์ข้อมูลด้วยวิธีดาต้า ไมน์นิงนี้มีตัวอย่างความสำเร็จให้เห็นอยู่เยอะครับ แต่ผมขอยกตัวอย่างมาให้ดูสัก 2 ตัวอย่างก่อน โดยตัวอย่างแรกเป็นตัวอย่างคลาสสิกครับ นั่นก็คือการที่ห้างวอล์มาร์ท (Walmart) ได้ทำการค้นพบพฤติกรรมการซื้อสินค้าของลูกค้าที่เป็นเพศชายว่า ในช่วงเย็นของวันศุกร์ลูกค้ากลุ่มนี้มักจะมาซื้อสินค้าสองอย่างควบคู่กันไป นั่นก็คือ “เบียร์และผ้าอ้อม” โดยจากการวิเคราะห์เจาะลึกลงไปก็พบเหตุผลว่าการที่สินค้าสองอย่างนี้มีการซื้อร่วมกันบ่อยๆ เพราะว่า พ่อบ้านส่วนใหญ่มักจะซื้อเบียร์ไปดื่มในช่วงสุดสัปดาห์และเกิดคิดถึงลูกน้อยของตัวเองขึ้นมาจึงซื้อผ้าอ้อมติดไม้ติดมือไปด้วย (ถ้าเป็นบ้านเราอาจจะพบว่าพฤติกรรมแบบนี้เกิดขึ้นเพราะพ่อบ้านถูกภรรยาใช้ให้มาซื้อผ้าอ้อมให้ลูกแล้วอยากดื่มเบียร์ด้วยหรือเปล่าก็ไม่รู้นะครับ ^^) หลังจากที่ห้างวอล์มาร์ทรู้ถึงพฤติกรรมแบบนี้ทางห้างก็สามารถที่จะจัดวางสินค้าสองชนิดนี้ให้สามารถค้นหาได้ง่ายๆ หรือมองเห็นได้ง่ายเพื่อเพิ่มโอกาสที่ลูกค้าจะได้ซื้อติดไม้ติดมือกันไปด้วยครับ ส่วนตัวอย่างที่สองก็ยังคงมาจากห้างสรรพสินค้าเหมือนกันครับ นั่นคือห้างทาร์เก็ต (Target) ห้างทาร์เก็ตนี้เป็นห้างที่เกิดขึ้นมาทีหลังทำให้การจะแข่งขันกับห้างวอล์มาร์ทที่มีอยู่ก่อนแล้วก็คงไม่ใช่เรื่องง่าย ดังนั้นทางห้างจึงพยายามหาวิธีที่จะดึงดูดให้ลูกค้ามาซื้อสินค้ากับทางห้างให้มากขึ้นและรักษาฐานลูกค้าที่มีอยู่ให้เชื่อใจและอยากกลับมาซื้อสินค้าที่ห้างของตนเองให้ได้มากที่สุด จากการวิจัยทางการตลาดของห้างทาร์เก็ตพบว่า เมื่อครอบครัวมีสมาชิกใหม่เกิดขึ้นคนในครอบครัวก็จะเริ่มมีการจับจ่ายใช้สอยมากขึ้นเพื่อรองรับการขยายขนาดของครอบครัว ดังนั้นเมื่อทราบเช่นนี้แล้วทางห้างทาร์เก็ตจึงได้ทำการวิเคราะห์พฤติกรรมของลูกค้าผู้หญิงที่มาซื้อสินค้าและพบว่าเมื่อลูกค้าเหล่านี้เริ่มตั้งครรภ์ ลูกค้าจะมีพฤติกรรมการซื้อสินค้าที่เปลี่ยนไป เช่น เริ่มมีการซื้อวิตามินบำรุงมากขึ้น เปลี่ยนไปกินอาหารที่มีประโยชน์ หรือแม้กระทั่งซื้อตู้เสื้อผ้าเพิ่ม จากรูปแบบพฤติกรรมลักษณะนี้ทำให้ทางห้างสามารถส่งโปรโมชันที่เกี่ยวกับการตั้งครรภ์หรือสินค้าสำหรับเด็กให้กับลูกค้ากลุ่มนี้ได้ นอกจากนี้ห้างทาร์เก็ทยังมีความมั่นใจว่าถ้าลูกค้าเชื่อใจที่จะซื้อสินค้าให้กับบุตรที่เกิดขึ้นใหม่แล้วลูกค้าเหล่านี้ก็จะเชื่อใจซื้อสินค้าชนิดอื่นๆ ของทางห้างไปอีกเรื่อยๆ (รายละเอียดเพิ่มเติมดูได้จากหัวข้อ “เอกสารอ้างอิง” ช่วงท้ายของบทนี้ครับ)

แน่นอนว่าถ้าเราอยู่ในบริษัทใหญ่ๆ อย่างห้างวอล์มาร์ทหรือห้างทาร์เก็ตการซื้อซอฟต์แวร์เชิงพาณิชย์ซึ่งมีราคาเฉียดล้านบาท เช่น SAS Enterprise Miner  หรือ IBM Intelligent Miner เพื่อมาทำการวิเคราะห์หาพฤติกรรมเหล่านี้ก็คงไม่ใช่เรื่องยากและก็คุ้มค่ากับการลงทุน แต่ถ้าเราเป็นเจ้าของกิจการขนาดย่อมถึงปานกลาง (หรือที่เรียกว่า SME) หรือเป็นนิสิต นักศึกษา อาจารย์ การลงทุนแบบนี้ก็อาจจะเป็นไปได้ยากมาก ดังนั้นในหนังสือเล่มนี้ผมจึงอยากจะแนะนำให้รู้จักกับซอฟต์แวร์ประเภท โอเพนซอร์ส (open source) ซึ่งสามารถดาวน์โหลดมาใช้งานได้โดยไม่มีค่าใช้จ่าย หรือ ฟรีนั่นเองครับ

ถ้าพูดถึงซอฟต์แวร์ประเภทโอเพนซอร์สที่ใช้ในการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิงในประเทศไทยเรามักจะคุ้นเคยกับซอฟต์แวร์ที่ชื่อว่า Weka มากกว่า ผมเองคลุกคลีกับดาต้า ไมน์นิ่งและได้ลองใช้งานซอฟต์แวร์ Weka มาเป็นระยะเวลาหลายปีจนได้เขียนบทความการใช้งาน Weka เบื้องต้นลงในนิตยสาร โอเพนซอร์ส ทูเดย์ (OpenSource2Day) ซึ่งเป็นนิตยสารเล่มแรกและเล่มเดียวในเมืองไทยที่เน้นการใช้งานซอฟต์แวร์ โอเพนซอร์ส หลังจากนั้นผมก็ได้ร่างหลักสูตรการใช้งานซอฟต์แวร์ Weka และจัดการอบรมมาเป็นจำนวนเกือบ 20 รุ่น แม้ว่าซอฟต์แวร์ Weka จะใช้งานได้ง่ายและสะดวกมากถ้าต้องการนำไปพัฒนาต่อยอดในระบบ web application ที่พัฒนาขึ้นมาเอง แต่ในหลายๆ ครั้งผมมักจะพบกับข้อจำกัดทางการใช้งานหรือการแสดงผลในรูปแบบต่างๆ และนั่นก็เป็นเหตุผลหนึ่งที่ผมได้เริ่มลองหาซอฟต์แวร์ โอเพนซอร์สอื่นๆ มาใช้งานแทน Weka และผมก็คิดว่าซอฟต์แวร์ RapidMiner Studio 6 ที่ผมจะแนะนำการใช้งานในหนังสือเล่มนี้มีสิ่งที่น่าสนใจและทำงานได้เหนือกว่าซอฟต์แวร์ Weka ครับ ผมขอสรุปข้อที่ดีกว่าของซอฟต์แวร์ RapidMiner Studio 6 ดังนี้ครับ

  • รองรับการใช้งานไฟล์ได้หลายประเภท เช่น ไฟล์ Excel 2007
  • สามารถแสดงข้อมูลได้หลายรูปแบบ เช่น scatter plot 3D
  • สามารถแสดงผลโมเดลที่สวยงามและแก้ไขการแสดงผลให้สามารถอ่านได้ง่ายขึ้น
  • สามารถบันทึกไฟล์โมเดลออกเป็นไฟล์ภาพประเภทต่างๆ เช่น PNG, JPG หรือ PDF
  • มีวิธีการเตรียมข้อมูล (preprocess) และการวิเคราะห์ได้หลากหลายรูปแบบ

  • ดาวน์โหลดไฟล์ PDF สำหรับบทนี้ได้ที่นี่ครับ
  • ดาวน์โหลดไฟล์ Excel ตัวอย่างได้ที่นี่ครับ

เนื้อหาที่เกี่ยวข้อง

หลักสูตรการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining โดยซอฟต์แวร์ RapidMiner Studio 7
(ขั้นพื้นฐานและปานกลาง)

3 Comments

  1. สอบถามหน่อยค่ะ ไม่ทราบว่ามีหนังสือเกี่ยวกับการใช้งานโปรแกรม RapidMiner หรือเปล่าค่ะ

    • ขอโทษที่ตอบล่าช้าและขอบคุณที่สนใจเนื้อหาของเราครับ ตอนนี้เรายังไม่มีหนังสือ RapidMiner ครับ จะมีแต่เอกสารประกอบการอบรมซึ่งจะต้องเข้าร่วมอบรมถึงจะอ่านเข้าใจครับ

  2. Pingback: การใช้งาน Workflow จาก myExperiment | Data Mining Trend

Leave a Reply

Your email address will not be published. Required fields are marked *