การสร้างโมเดล classification ด้วย Weka Explorer

บทความตอนนี้ผมจะอธิบายการสร้างโมเดล classification ด้วยซอฟต์แวร์ Weka Explorer ครับ โดยมีขั้นตอนต่างๆ ดังนี้ครับ

1. เปิดซอฟต์แวร์ Weka ขึ้นมาใช้งานจะเห็นหน้าต่างดังในรูปที่ 1 ซึ่งจะมีเมนูให้เลือก 4 อัน ในขั้นนี้เราจะเลือกที่เมนู Explorer ครับ

weka_explorer1
รูปที่ 1 เลือก Weka Explorer เพื่อเริ่มทำงาน

2. หลังจากนั้นหน้าต่าง Weka Explorer ก็จะปรากฏขึ้นมาให้เราเห็นครับ ขั้นถัดมาเราจะต้องเลือกไฟล์สำหรับใช้ในการสร้างโมเดลโดยใน blog นี้ เราจะเลือกใช้ไฟล์ที่ชื่อว่า weather.numeric.arff ซึ่งอยู่ในโฟลเดอร์ data ภายใน path ของ Weka อีกทีครับ ดังนั้นเลือกเมนู Open ครับและเลือกไฟล์ดังกล่าว

weka_explorer2

รูปที่ 2 คลิกปุ่ม Open File และเลือกไฟล์ที่ต้องการใช้ในการสร้างโมเดล

Continue reading

ดาวน์โหลดฟรีหนังสือ Mining of Massive Datasets 2 Edition

mining-of-massive-datasets

ผู้แต่งหนังสือ Mining of Massive Datasets เปิดให้ดาวน์โหลดหนังสือฉบับพิมพ์ครั้งที่ 1 และ 2 ฟรี ผู้สนใจสามารถดาวน์โหลดได้จากเว็บไซต์ http://www.mmds.org โดยฉบับพิมพ์ครั้งที่ 2 มีเนื้อหาดังนี้

ที่มา: เว็บไซต์ KDnuggets.com

อบรมการใช้งาน Weka Explorer ฟรี!!!

mooc-certificate-production 246

มหาวิทยาลัย Waikato ผู้พัฒนาซอฟต์แวร์ Weka เตรียมเปิดสอนการใช้งาน Weka Explorer ผ่านทางออนไลน์ (MOOC) อีกครั้ง หลังประสบความสำเร็จในครั้งแรกเมื่อช่วงปี 2013 ที่ผ่านมา ผู้สนใจสามารถลงทะเบียนได้ที่ https://weka.waikato.ac.nz/moredataminingwithweka ซึ่งจะเปิดรับสมัครช่วงเดือนมีนาคม และจะเริ่มสอนในช่วงเดือนเมษายน สำหรับผู้ที่เข้าเรียนครบและทำแบบทดสอบผ่านจะได้รับประกาศนียบัตรจากทางมหาลัยแบบในตัวอย่างครับ

สำหรับหนังสือการใช้งาน Weka Explorer ฉบับภาษาไทยดาวน์โหลดได้ที่นี่ครับ

 

การอบรมเชิงปฏิบัติการพัฒนา WEB APPLICATION ด้วย WEKA และ PHP รุ่นที่ 2

เว็บไซต์ dataminingtrend.com ขอเชิญชวนร่วมอบรมเชิงปฏิบัติการ Data Mining Application Development using WEKA and PHP รุ่นที่ 2 ในวันที่ 26-27 เม.ย. 2557

พิเศษ!!! ผู้ที่สมัครรุ่นนี้จะได้รับ

  • vdo การใช้งาน Weka Explorer เพื่อไปทบทวน
  • flashdrive พร้อมข้อมูลและ source code
  • หนังสือคู่มือการใข้งาน Weka Explorer ฉบับภาษาไทย

ภาพรวมของหลักสูตร

การวิเคราะห์ข้อมูลด้วยเทคนิค data mining ได้เข้ามามีบทบาทสำคัญในชีวิตของเราทุกวันนี้ วิธีการหนึ่งที่ทำให้การวิเคราะห์ข้อมูลเกิดประโยชน์คือการเพิ่มเข้าไปในระบบต่างๆ เพื่อทำให้ระบบมีความฉลาดมากขึ้น หรือ เป็น Intelligent System ตัวอย่างของระบบที่นำการวิเคราะห์ข้อมูลมาใช้งาน เช่น

  •  ระบบแนะนำหนังสือของเว็บไซต์ amazon.com ซึ่งทำการเก็บข้อมูลการซื้อสินค้าของลูกค้าแต่ละรายและนำมาวิเคราะห์เพื่อหารูปแบบของหนังสือที่ลูกค้านิมซื้อพร้อมกัน จากนั้น amazon.com จึงสามารถแนะนำหนังสือที่เกี่ยวข้องเพื่อเพิ่มยอดขายให้กับทาง amazon ได้
  • ระบบ search engine ของ Bing สามารถคาดการณ์ราคาตั๋วเครื่องบินได้ว่าจะมีราคาสูงขึ้นหรือลดลง ระบบนี้ได้ทำการเก็บข้อมูลราคาตั๋วเครื่องบินในอดีตและทำการสร้าง prediction model เพื่อคาดการณ์ว่าราคาตั๋วจะเพิ่มขึ้นหรือลดลงในอนาคตเพื่อจะได้แนะนำผู้ใช้ว่าควรจะซื้อตั๋วในปัจจุบันดีหรือไม่

ในการอบรมครั้งนี้เน้นไปที่การใช้งานซอฟต์แวร์ open source ที่ชื่อว่า Weka ในการวิเคราะห์ข้อมูลและใช้ภาษา PHP เพื่อพัฒนาเป็น web application ผู้เข้าร่วมอบรมจะได้ทำ workshop เพื่อสร้าง web application ด้วย PHP และซอฟต์แวร์ Weka ทั้งหมด 3 ระบบดังนี้

ระบบแนะนำภาควิชาให้กับนักศึกษาตามความเหมาะสม
ในหลายครั้งที่นักศึกษาเลือกภาควิชาไม่เหมาะสมกับความสามารถของตนเองทำให้ผลการเรียนตกต่ำและอาจจะไม่สำเร็จการศึกษาในที่สุด ใน workshop นี้ผู้เข้าร่วมอบรมจะได้นำข้อมูลการลงทะเบียนเรียนย้อนหลังของนักศึกษามา สร้าง classification model ด้วยซอฟต์แวร์ Weka เพื่อใช้ในการแนะนำสาขาวิชาให้เหมาะสมกับผลการเรียนของนักศึกษาแต่ละคน
Continue reading

รีวิวหนังสือ Exploring Data with RapidMiner

1622676_709294145770648_918096573_n

ผมได้รับหนังสือเล่มนี้ (แบบ ebook) จากสำนักพิมพ์ PACKT Publishing มาเพื่อให้รีวิวสักพักแล้วครับ และมีข้อตกลงว่าผมจะต้องเขียนรีวิวเกี่ยวกับหนีงสือเล่มนี้ในหน้าเว็บของ Data Cube ครับ ตอนแรกที่ได้รับมาก็เข้าใจว่าคงเป็นเหมือนหนังสือ data miningเล่มอื่นๆ ที่อธิบายเกี่ยวกับการใช้งานเทคนิคต่างๆ แต่ผมเข้าใจผิดครับ เมื่ออ่านดูแล้วพบว่าหนังสือเล่มนี้เน้นไปที่ส่วนของการเตรียมข้อมูล (pre-process) เป็นหลักใช้ซอฟต์แวร์ที่ชื่อว่า RapidMiner Studio 6 ครับ การเตรียมข้อมูลเป็นขั้นตอนแรกๆ ที่เราควรจะทำก่อนวิเคราะห์ข้อมูลครับ เพราะถ้าข้อมูลของเราไม่ถูกต้อง เช่น มีข้อมูลผิดเพี้ยนจากความเป็นจริง โมเดลที่เราสร้างขึ้นมาเพื่อทำนายก็จะไม่น่าเชื่อถือครับ

แต่ก่อนจะไปดูว่าหนังสือเล่มนี้มีอะไรบ้างผมขอแนะนำให้รู้จักกับซอฟต์แวร์ RapidMiner Studio 6 ก่อนครับ ซอฟต์แวร์ตัวนี้เป็นซอฟต์แวร์ที่ใช้งานแพร่หลายในการวิเคราะห์ข้อมูลด้วยเทคนิค data mining (คล้ายๆ กับซอฟต์แวร์ Weka) และในหลายๆ ปีที่ผ่านมา RapidMinerได้รับการโหวตให้เป็นโปรแกรมอันดับหนึ่งในการวิเคราะห์ข้อมูลจากเว็บไซต์ kdnuggets.com ซึ่งเวอร์ชัน 6 นี้เป็นเวอร์ชันล่าสุดที่เพิ่งปล่อยออกมาให้ดาวน์โหลดกันครับ ท่านที่สนใจซอฟต์แวร์ตัวนี้โหลดได้ฟรีที่ http://rapidminer.com/ นะครับ นอกจากนั้นข้อดีของซอฟต์แวร์นี้คือสามารถสร้าง workflow เพื่อวิเคราะห์ข้อมูลที่ซับซ้อนได้โดยที่เราไม่ต้องเขียนโปรแกรม หรือ code สักบรรทัดเลยครับ มันเหมาะมากสำหรับคนที่ไม่ชอบเขียนโปรแกรมแต่อยากวิเคราะห์ข้อมูลที่สลับซับซ้อนครับ

ย้อนกลับมาที่หนังสือเล่มนี้บ้าง คนแต่งถือว่าสุดยอดครับได้รับ certificate ด้านการใช้งาน RapidMiner ในระดับ Expert เลยทีเดียว เนื้อหาในเล่มจะแบ่งเป็น 11 บทครับ แต่ที่เกี่ยวกับการทำเตรียมข้อมูลจริงมีประมาณ 8 บทครับ ผมขอยกตัวอย่างบทที่สำคัญๆ มาอธิบายดังนี้ครับ

  • การนำข้อมูลเข้าไปใช้งาน (Loading Data) ในบทนี้จะแนะนำการนำข้อมูลเข้าไปใช้ในซอฟต์แวร์ RapidMiner Studio ครับ ซึ่งข้อดีของซอฟต์แวร์นี้คือรองรับไฟล์หลากหลายประเภท เช่น Excel หรือฐานข้อมูลต่างๆ ครับ
  • การแสดงข้อมูลในรูปแบบของกราฟต่างๆ (Visualizing Data) จะช่วยให้เราสามารถเห็นภาพของข้อมูลได้ง่ายขึ้นครับ ในหนังสือเล่มนี้ได้อธิบายถึงประสิทธิภาพของ RapidMiner Studio ที่ใช้แสดงกราฟได้หลายๆ แบบ เช่น scatter plot แบบ 2 มิติ และ 3 มิติ หรือการแสดงข้อมูลที่มีลักษณะเป็น time series
  • การค้นหา outlier ซึ่งมักจะมีแทรกอยู่ในข้อมูลของเราอยู่แล้วครับ ข้อมูลที่เป็น outlier แบบนี้พูดง่ายๆ คือข้อมูลที่ผิดเพี้ยนไปจากข้อมูลส่วนใหญ่หรืออาจจะเรียกว่าเป็นข้อมูลที่สุดโต่งก็ได้ครับ ถ้ามีข้อมูลแบบนี้อยู่จะทำให้โมเดลของเรามีประสิทธิภาพลดลงครับ หนังสือเล่มนี้ได้อธิบายการค้นหา outlier แบบต่างๆ เช่น การค้นหาด้วยระยะทาง (distance) หรือความหนาแน่นของข้อมูล (density) ครับ
  • การค้นหาและแทนที่ข้อมูลที่ขาดหายไป (missing value) ในบางครั้งเราจะพบว่าข้อมูลบางส่วนไม่มีครับ เนื่องจากความผิดพลาดในการกรอกข้อมูลหรือการจงใจที่จะไม่กรอกข้อมูลครับ ในเล่มนี้จะแสดงขั้นตอนการแทนที่ข้อมูลที่ขาดหายไปด้วยค่าที่เราเป็นกำหนดเองหรือค่าทางสถิติต่างๆ ครับ
  • การแปลงข้อมูลให้เป็นรูปแบบที่เหมาะสมกับการใช้งานครับ (Transforming Data) ตัวอย่างเช่น ถ้าเราจะทำการหากฏความสัมพันธ์ (association rules) ข้อมูลของเราจะต้องอยู่ในรูปแบบของ transaction database หรือบางครั้งเรียกว่า pivot table เสียก่อน ซึ่งเวลาเก็บข้อมูลลงในฐานข้อมูลจริงๆ มันไม่ได้เป็นแบบ transaction database น่ะสิครับ หนังสือเล่มนี้สอนการสร้าง pivot table อย่างง่ายๆ ด้วย RapidMiner Studio ครับ

สรุปง่ายๆ ว่าหนังสือเล่มนี้แสดงให้เห็นประสิทธิภาพของซอฟต์แวร์ RapidMiner Studio ที่สามารถนำมาจัดการเตรียมข้อมูลให้ถูกต้องและเหมาะสมก่อนการนำไปวิเคราะห์ด้วยเทคนิค data mining ต่อไปครับ สำหรับคนที่อยากอ่านหนังสือเล่มนี้ ผมพบว่ามีให้โหลด free chapter ครับที่http://www.packtpub.com/sites/default/files/9781782169338_Chapter_09.pdf ส่วนใครสนใจสั่งซื้อได้ที่http://www.packtpub.com/exploring-data-with-rapidminer/book ตอนนี้ถ้าเป็นแบบ ebook ราคาเหลือเพียงแค่ 20.39$ เท่านั้นครับ

แจกฟรีหนังสือ คู่มือการใช้งาน Weka Explorer (ฉบับภาษาไทย)

988786_689968851036511_781085242_n

ดาวน์โหลดฟรีหนังสือคู่มือการใช้งาน Weka Explorer เบื้องต้นฉบับภาษาไทย ดูตัวอย่างได้ที่ http://dataminingtrend.com/new/download/WEKA-partI.pdf ผู้สนใจกรุณากรอกแบบฟอร์มเพื่อขอรับหนังสือได้ฟรีที่นี่ครับ (หลังจากกรอกข้อมูลแล้วจะมี link สำหรับดาวน์โหลดจะส่งไปให้ท่านทาง email ที่ได้กรอกไว้ครับ)

ภาพบรรยากาศการอบรมเชิงปฏิบัติการพัฒนา WEB APPLICATION ด้วย WEKA และ PHP รุ่นที่ 1

ผ่านพ้นไปแล้วครับกับการอบรม Data Mining Application Development using Weka และ PHP รุ่นแรก เป็นการอบรมที่มีผู้เข้าร่วมอบรมมากที่สุดเท่าที่ทางเราเคยจัดมาเลยครับ ทีมงาน data cube ขอขอบคุณผู้เข้าร่วมอบรมทุกท่านที่ให้ความไว้วางใจและมาอบรมกับทางเราครับ ทางเราจะปรับปรุงมาตรฐานให้ดีขึ้นไปอีกครับ ^^

data_mining_003 data_mining_004

Continue reading