การสร้างโมเดล Decision Tree สำหรับแอตทริบิวต์ที่เป็นตัวเลข

ในบทความเรื่อง “ขั้นตอนการสร้างโมเดล Decision Tree” ผมได้อธิบายถึงขั้นตอนพื้นฐานในการสร้างโมเดลและตัวอย่างที่ใช้แสดงเป็นข้อมูลประเภทนอมินอล (nominal) เท่านั้น ซึ่งในความเป็นจริงแล้ว ข้อมูลที่ใช้ในการสร้างโมเดลอาจจะเป็นประเภทตัวเลข (numeric) ก็ได้เช่นกัน หลักการของการสร้างโมเดลในกรณีที่แอตทริบิวต์เป็นตัวเลขจะมีขั้นตอนดังนี้

 • เรียงลำดับข้อมูลที่เป็นตัวเลขจากน้อยไปมาก
 • แบ่งข้อมูลออกเป็น 2 ส่วนโดยการหาจุดกึ่งกลางระหว่างค่าตัวเลข 2 ค่าที่แตกต่างกัน เช่น 70 และ 75 จะได้ค่าเป็น 72.5
 • คำนวณค่า Information Gain จากข้อมูล 2 ส่วนที่แบ่งได้ โดยส่วนที่น้อยกว่าเท่ากับจุดกึ่งกลางจะให้เป็นข้อมูลด้านซ้ายของโหนด (node) และข้อมูลส่วนที่เหลือจะให้เป็นข้อมูลด้านขวาของโหนด
 • หาจุดกึ่งกลางของค่าที่แตกต่างกันทุกๆ ค่าและเลือกจุดกึ่งกลางที่ให้ค่า Information Gain สูงที่สุดมาใช้งานต่อ

ดูรายละเอียดการทำงานได้จาก slide ด้านล่างนี้ครับ

การจัดการข้อมูลจากฐานข้อมูลด้วย RapidMiner Studio 7

นอกจากการใช้ RapidMiner Studio 7 ในการวิเคราะห์ข้อมูลแล้วเรายังสามารถเอานำมาใช้จัดการข้อมูลได้แบบง่ายๆ โดยที่ไม่ต้องเขียน SQL เลยครับ สไลด์นี้แสดงการจัดการข้อมูลแบบเบื้องต้นโดยแสดงตัวอย่างการจัดการดังนี้ (คลิกที่ภาพเพื่ออ่านไฟล์ PDF ได้เลยครับ)

rapidminer_ads9

 • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student
 • แสดงข้อมูลชื่อ (First) ของนักศึกษาจากตาราง Student
 • แสดงข้อมูลนามสกุล (Last) ของนักศึกษาจากตาราง Student
 • แสดงข้อมูลชื่อ (First) และ นามสกุล (Last) ของนักศึกษาจากตาราง Student
 • แสดงข้อมูลนามสกุล (Last) ของนักศึกษาที่แตกต่างกันจากตาราง Student
 • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student ซึ่งมีชื่อว่า John
 • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student ยกเว้นนักศึกษาที่ชื่อ John
 • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Grade ที่มีคะแนนมากกว่าหรือเท่ากับ 60 คะแนน
 • แสดงเฉพาะข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) จากตาราง Grade ที่มีคะแนนน้อยกว่าหรือเท่ากับ 60 คะแนน
 • แสดงเฉพาะข้อมูลชื่อ (First) นามสกุล (Last) คะแนน (Mark) และชื่อวิชา (Title) จากตาราง Grade ที่มีคะแนนระหว่าง 40-60 คะแนน
 • แสดงข้อมูลคะแนน (Mark) จากตาราง Grade โดยเรียงลำดับคะแนนจากน้อยไปมาก
 • แสดงข้อมูลคะแนน (Mark) จากตาราง Grade โดยเรียงลำดับจากมากไปน้อย
 • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่มีสนามสกุลว่า Jones
 • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่ไม่มีมีสนามสกุลว่า Jones
 • นักศึกษาที่ลงทะเบียนเรียนวิชา Intro to AI มีคะแนนน้อยสุดเท่าไร
 • นักศึกษาที่ลงทะเบียนเรียนวิชา Intro to AI มีคะแนนมากสุดเท่าไร
 • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่ลงทะเบียนเรียนวิชา Programming (รวมทั้ง 1 และ 2)
 • นักศึกษาที่ลงทะเบียนเรียนวิชา Programming 2 มีคะแนนมากสุดเท่าไร

ท่านใดสนใจดูรายละเอียดได้จากไฟล์ PDF นี้ครับ

10 เรื่องที่มีจำนวนผู้ชม (Reach), Like และ Share มากที่สุดในปี 2015 จาก Facebook ของดาต้า คิวบ์

ช่วงนี้ก็ใกล้จะปีใหม่ 2016 แล้วครับ เห็นหลายๆ เว็บได้ทำการสรุปเรื่องต่างๆ ในปี 2015 ทางดาต้า คิวบ์เลยขอสรุป post ของเราที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science ซึ่งมีผู้กด Like และ Share มากที่สุด 10 อันดับ ดังนี้ครับ (กดดูรายละเอียดที่รูปภาพได้เลยครับ)

 1. ท่านใดที่สนใจงานวิจัยภายของจุฬาลงกรณ์มหาวิทยาลัย (CU) สามารถค้นหาและดาวน์โหลดไฟล์แบบเต็ม (full text) ได้แล้วครับ รายละเอียดดูได้จาก link ด้านล่างได้เลยครับ ^^
  ขอขอบคุณคุณ Kieng Kub ที่แชร์มาครับ
  Screen Shot 2558-12-31 at 2.54.45 AM
 2. ท่านใดเขียน paper หรือเขียนเล่มวิทยานิพนธ์แล้วไม่ได้ใช้ Latex ของดู Endnote เพื่อจัดการ reference ก็ดีนะครับ ^^

  credit: ขอขอบคุณอ. Suthanya Doung In ที่แนะนำครับ
  Screen Shot 2558-12-31 at 3.02.34 AM
 3. ท่านใดที่ใช้ SPSS อยู่ลองดูซอฟต์แวร์ opensource ที่ช่วยวิเคราะห์ข้อมูลทางสถิติได้คล้ายๆ กันครับ ซอฟต์แวร์นี้ชื่อ PSPP (อักษรสลับกับ SPSS) ท่านใดสนใจดูรายละเอียดได้จาก link ด้านล่างเลยครับ ^^
  Screen Shot 2558-12-31 at 3.03.55 AM
 4. สไลด์การบรรยายเรื่อง Introduction to Data Mining & Big Data Analytics แบบง่ายๆ ครับ ท่านใดสนใจดูได้จาก link ด้านล่างได้เลยครับ ^^
  Screen Shot 2558-12-31 at 3.05.40 AM
 5. กระบวนการหนึ่งที่นิยมในการวิเคราะห์ข้อมูลด้วย Data Mining คือ CRISP-DM บทความนี้อธิบาย 6 ขั้นตอนของ CRISP-DM และการประยุกต์ใช้งานในด้านการศึกษา ท่านใดสนใจดูได้จาก link ด้านล่างได้เลยครับ ^^
  ‪#‎ILikeDataMining‬
  Screen Shot 2558-12-31 at 3.06.47 AM
 6. สวัสดีเราคือโอเปอเรเตอร์ K-Means มาดูว่าเราทำงานยังไงบ้างนะครับ ^^
  Screen Shot 2558-12-31 at 3.08.13 AM
 7. นอกจาก R, Python, RapidMiner แล้วยังมี Weka ด้วยนะครับ ดาต้า คิวบ์แจกหนังสือการใช้งาน Weka ฟรี (แบบ PDF) ท่านใดสนใจดูรายละเอียดได้จาก link ด้านล่างได้เลยครับ ^^
  Screen Shot 2558-12-31 at 3.10.36 AM
 8. ลองมาดูวิธีการสร้าง Decision Tree ด้วย Information Gain กันอีกครั้งนะครับ ท่านใดสนใจดูได้จาก link ด้านล่างได้เลยครับ ^^

  Note: เนื่องในโอกาสวันพ่อแห่งชาติ 5 ธันวาคม 2558 ดาค้า คิวบ์ขอมอบ E-book เรื่อง An Introduction to Data Mining Techniques (ฉบับภาษาไทย) (จำนวน 300 เล่ม) ซึ่งสามารถเปิดอ่านได้ใน Ookbee ท่านใดสนใจดูรายละเอียดการขอ Promotion Code ได้จาก http://dataminingtrend.com/2014/free-data-mining-ebook/ ครับ
  Screen Shot 2558-12-31 at 3.12.46 AM
 9. [repost]
  เอกสารการใช้งาน R ฉบับภาษาไทยของ รองศาสตราจารย์ ดร.วิโรจน์ อรุณมานะกุล ท่านใดสนใจอ่านได้จาก link ได้เลยครับ ^^

  Note: เพราะเราเชื่อว่าการเรียนรู้เริ่มต้นจากการอ่านและการแบ่งปันครับ
  Screen Shot 2558-12-31 at 3.14.23 AM
 10. ดาวน์โหลดฟรีหนังสือเรื่อง Understanding Machine Learning: From Theory to Algorithms ท่านใดสนใจดาวน์โหลดได้จาก http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/copy.html ได้เลยครับ
  Screen Shot 2558-12-31 at 3.15.18 AM

นอกจากทั้ง 10 อันดับที่ได้สรุปมาแล้ว Page ดาต้า คิวบ์ยังมีเนื้อหาดีๆ ที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science อีกมากครับ ท่านใดสนใจดูรายละเอียดเพิ่มได้ที่ https://www.facebook.com/datacube.th นะครับ 🙂

การจัดการข้อมูลด้วย RapidMiner Studio 6

[เอกสารนี้เป็นบทที่ 2 ของหนังสือ Introduction to Bussiness Analytics with RapidMiner Studio 6 ซึ่งลดราคาพิเศษครับ ซื้อพร้อมหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย)​ ราคารวม 500 บาทครับ ดูรายละเอียดได้ที่นี่ครับ]

 

ตัววัดประสิทธิภาพของโมเดล Classification

ในการสร้างโมเดลเพื่อจำแนกประเภทข้อมูล (classification) สามารถแบ่งข้อมูลเพื่อทำการทดสอบได้ 3 แบบใหญ่ ดังที่ได้อธิบายไว้ในหัวข้อ “การแบ่งข้อมูลเพื่อนำทดสอบประสิทธิภาพของโมเดล” สำหรับบทความนี้จะแสดงการวัดประสิทธิภาพของโมเดลด้วยตัววัด (metric) ต่างๆ ได้แก่

 • Confusion Matrix
 • Precision
 • Recall
 • F-measure
 • Accuracy
 • ROC Graph
 • AUC (Area Under ROC Curve)

ขั้นตอนการคำนวณต่างๆ สามารถดูได้จาก slide ด้านล่างนี้ครับ

สไลด์การดึงข้อมูลจาก Twitter ด้วย RapidMiner Studio 7

ตอนนี้ท่านใดที่สนใจดึงข้อมูลจาก Twitter สามารถทำได้ง่ายด้วยซอฟต์แวร์ RapidMiner Studio 7 ครับ รายละเอียดการทำงานดูได้จาก slide ด้านล่างได้เลยครับ ^^

แจกฟรี E-book บน Ookbee เรื่อง Introduction to Business Analytics with RapidMiner Studio 6

Capture70

ท่านใดสนใจหนังสือ Introduction to Business Analytics with RapidMiner Studio 6 รบกวนกรอกข้อมูลในฟอร์มด้านล่างเพื่อรับ Promotion Code และวิธีการกรอกเพื่อดาวน์โหลดฟรีใน Ookbee application ได้เลยครับ


หมายเหตุ เนื่องจากโปรโมชันนี้มีจำนวนจำกัดหลังจากได้รับ Promotion Code แล้วกรุณากรอกทันทีครับ ไม่เช่นนั้นอาจจะหมดก่อนครับ

ส่วนท่านใดต้องการหนังสือเล่มนี้ในรูปแบบเล่ม (hard copy) สามารถสั่งจองได้ที่หน้า “สั่งจองหนังสือ Introduction to Business Analytics with RapidMiner Studio 6 (ฉบับภาษาไทย)” ครับ

หนังสือ Introduction to Business Analytics with RapidMiner Studio 6 (ภาษาไทย)

สารบัญ

 • บทที่ 1 แนะนำส่วนต่างๆ ของ RapidMiner Studio 6
  • การติดตั้งซอฟต์แวร์
  • ส่วนประกอบต่างๆ ของ RapidMiner Studio 6
 • บทที่ 2 การเตรียมข้อมูล (preprocess)
  • แนะนำข้อมูล Sales data
  • การสร้าง Repository ใหม่
  • การ import ข้อมูลเข้ามาใช้งาน
  • การดูข้อมูลในรูปแบบต่างๆ (data exploration)
  • โอเปอเรเตอร์ที่ใช้งานในบทที่ 2
  • การคัดเลือกข้อมูล
  • การคำนวณราคา
  • แนะนำการแบ่งกลุ่มด้วยวิธี RFM (Recency, Frequency, Monetary)
  • การเตรียมข้อมูลสำหรับการแบ่งกลุ่มด้วยวิธี RFM
  • แบบฝึกท้ายบท
 • บทที่ 3 การแบ่งกลุ่มข้อมูล (segmentation)
  • การแบ่งกลุ่มลูกค้าตามพฤติกรรมการบริโภคด้วยวิธี RFM
  • โอเปอเรเตอร์ที่ใช้งานในบทที่ 3
  • การแบ่งกลุ่มข้อมูลด้วยวิธี RFM ใน RapidMiner Studio 6
  • แบบฝึกท้ายบท
 • บทที่ 4 การหาความสัมพันธ์ของข้อมูล (Product Association)
  • แนะนำการหากฏความสัมพันธ์ (Association Rules)
  • โอเปอเรเตอร์ที่ใช้งานในบทที่ 4
  • การเตรียมข้อมูลก่อนหาความสัมพันธ์
  • การหารูปแบบของสินค้าที่เกิดขึ้นบ่อย (frequent itemset)
  • การหากฏความสัมพันธ์
  • แบบฝึกท้ายบท
 • ภาคผนวก A การสร้างข้อมูล
 • ภาคผนวก B โอเปอเรเตอร์ที่ใช้งานทั้งหมด

ท่านใดสนใจหนังสือการวิเคราะห์ข้อมูลในเชิงธุรกิจ (business analytics) ราคาเล่มละ 269 บาทเท่านั้นครับ

ถ้าต้องการเป็นแบบจัดพิมพ์สามารถสั่งชื้อได้โดยการโอนเงินมายัง 1 ในบัญชีเหล่านี้ และส่งหลักฐานพร้อมที่อยู่สำหรับการจัดส่งมาที่ sit.ake@gmail.com หรือกรอกแบบฟอร์มด้านล่างครับ

 • นายเอกสิทธิ์ พัชรวงศ์ศักดา ธนาคารทหารไทย สาขาฟิวเจอร์พาร์ค รังสิต หมายเลขบัญชี 215-2-30624-3
 • นายเอกสิทธิ์ พัชรวงศ์ศักดา ธนาคารกสิกรไทย สาขาฟิวเจอร์พาร์ค รังสิต หมายเลขบัญชี 003-1-96614-0
 • นายเอกสิทธิ์ พัชรวงศ์ศักดา ธนาคารกรุงเทพ สาขาบิ๊กซี นวนคร หมายเลขบัญชี 947-006194-7
 • หสม. ดาต้า คิวบ์ กระทำการแทนโดย นายเอกสิทธิ์ พัชรวงศ์ศักดา ธนาคารไทยพาณิชย์ สาขาเดอะวอล์ค ราชพฤกษ์ หมายเลขบัญชี 404-524725-5

สอบถามรายละเอียดเพิ่มเติมได้ที่ sit.ake@gmail.com หรือ lineID: eakasitp หรือสั่งจองได้จากฟอร์มด้านล่างครับ ^^

การใช้งาน Workflow จาก myExperiment

ข้อดีอย่างหนึ่งของ RapidMiner Studio คือการสร้าง process ในการทำงานที่ยืดหยุ่นและแก้ไขได้ในภายหลัง หรือส่งไปให้กับเพื่อนร่วมงานเพื่อประหยัดเวลาในการพัฒนา หลายท่านอาจจะรู้จักกับเว็บไซต์ myExperiment ที่ได้ทำการรวบรวม process ต่างๆ ไว้รวมทั้ง process ของ RapidMiner Studio เองด้วย แต่ทว่าการดาวน์โหลดไฟล์จากเว็บไซต์มาใช้ก็ไม่สามารถเปิดได้โดยตรงครับ ต้องมีการติดตั้ง Extension ของ RapidMiner Studio ก่อนโดยมีขั้นตอนดังนี้ครับ (ในตัวอย่างนี้ใชเ

1. เปิดซอฟต์แวร์ RapidMiner Studio 6 และไปที่เมนู Help > Marketplace (Updates and Extensions…) จะปรากฏหน้าต่างดังรูปที่ 1 และในช่องค้นหาให้ใส่คำว่า myExperiment ซอฟต์แวร์จะแสดง Community Extension ขึ้นมา

Screen Shot 2558-07-21 at 1.41.39 PM

 

รูปที่ 1 แสดงหน้าต่าง RapidMiner Marketplace

2. double click ที่หัวข้อ Community Extension 6.4.0 จะเห็นว่าปุ่ม Select for installation จะถูกเลือก คลิกที่ปุ่ม Install 1 packages เพื่อเข้าสู่ขั้นตอนถัดไป

3. หน้าต่างเกี่ยวกับ Confirm Licenses จะปรากฏขึ้นมาดังในรูปที่ 2 คลิกที่เมนู I accept the terms of all license agreements และคลิกที่ปุ่ม Install 1 Packages

Screen Shot 2558-07-21 at 1.41.56 PM

รูปที่ 2 แสดงหน้าต่าง Confirm Licenses

4. หลังจากนั้นซอฟต์แวร์จะทำการดาวน์โหลด Extension เพิ่มเติมมาติดตั้งให้ดังในรูปที่ 3 ครับ

Screen Shot 2558-07-21 at 1.41.59 PM

 

รูปที่ 3 แสดงหน้าต่าง Progress

5. หลังจากติดตั้งเรียบร้อยแล้ว ซอฟต์แวร์จะให้ restart RapidMiner Studio 6 เพื่อให้ Community Extension ทำงาน ดังแสดงในรูปที่ 4

Screen Shot 2558-07-21 at 1.42.04 PM

รูปที่ 4 แสดงการติดตั้งเรียบร้อยแล้วจำเป็นจะต้อง restart RapidMiner Studio เพื่อให้ Extension ตัวใหม่ทำงาน

6. เมื่อซอฟต์แวร์ได้เปิดขึ้นมาจะมี icon ของ Community Extension แสดงอยู่ด้านบนขวาดังในรูปที่ 5

Screen Shot 2558-07-21 at 2.04.03 PM

รูปที่ 5 เปิดใช้งาน RapidMiner Studio 6 จะเห็นว่ามี icon ของ Community Extension ปรากฏอยู่ด้านขวาบน

7. หลังจากนั้นเราจะต้องเปิดหน้าต่างของ myExperiment ขึ้นมาก่อนครับ ถึงจะเลือกและค้นหา process ต่างๆ ได้ โดยการเลือกเมนู View > Show View > MyExperiment Browser หน้าต่างของ MyExperiment Browser จะแสดงขึ้นมาด้านซ้ายล่างดังรูปที่ 6

Screen Shot 2558-07-21 at 2.08.01 PM

รูปที่ 6 หน้าต่าง MyExperiment Browser จะปรากฏขึ้นมาด้านซ้ายล่าง

8. ในส่วนของ MyExperiment Browser คลิกที่ไอคอน Untitled เพื่อขยายหน้าต่างนี้ออกมาให้เต็มหน้าจอ ดังแสดงในรูปที่ 7

Screen Shot 2558-07-21 at 1.43.19 PM

รูปที่ 7 แสดงหน้าต่าง MyExperiment Browser แบบขยายเต็มหน้าจอ

9. จากรูปที่ 7 สามารถเลือก process ที่มีอยู่ใน list หรือค้นหาจากช่อง Search ได้ ในตัวอย่างนี้ผมเลือก process ที่ชื่อว่า Looping over Examples for doing de-aggregation และคลิกที่ปุ่ม Untitled2 เพื่อดาวน์โหลด process จากอินเตอร์เน็ตครับ ซึ่งจะแสดงในส่วน Process ของ RapidMiner Studio 6 ดังแสดงในรูปที่ 8 และสามารถกดปุ่ม Untitled3 เพื่อให้ process ทำงานได้ครับ

Screen Shot 2558-07-21 at 1.43.36 PM

รูปที่ 8 แสดง process ที่ดาวน์โหลดมาจากเว็บไซต์ myExperiment

หมายเหตุ ท่านใดสนใจดูรายละเอียดการใช้งานซอฟต์แวร์ RapidMiner Studio 6 ดูได้จาก คู่มือการใช้งาน RapidMiner Studio 6 ครับ