สไลด์บางส่วนจากการอบรม Practical Data Mining with RapidMiner Studio 7

ตัวอย่างสไลด์การอบรม Practical Data Mining with RapidMiner Studio 7 รุ่นที่ 17 ครับ ท่านใดสนใจดูรายละเอียดการอบรมรุ่นถัดไปได้ที่ http://dataminingtrend.com/2014/training/rapidminer-training-18/

สไลด์การบรรยายในงาน Big Data Analytics Tokyo 2017

16648985_10211455645409453_2225749924461860042_n

งาน Big Data Analytics Tokyo 2017 ที่จัดขึ้นที่ประเทศญี่ปุ่นในระหว่างวันที่ 7-8 กุมภาพันธ์มีการบรรยายที่น่าสนใจหลายงานครับ สามารถดาวน์โหลดสไลด์การบรรยายบางส่วนได้ดังนี้ครับ

  • Building Innovation Ecosystems: What Can Tokyo Learn from Cambridge? โดย Tim Rowe [slides] [Synopsis]
  • A Behind-the-Scenes Peek of an Analytics Startup โดย Takafumi Kusano [slides] [Synopsis]
  • The New Vanguard for Business Connectivity, Design, and the Internet of Things โดย David Rose  [slides] [Synopsis]
  • Encoding Discourse: Novel Interfaces for Collaborative Decision-making โดย Ira Winder [slides] [Synopsis]
  • Uncovering Team Performance Dynamics with Data & Analytics in Complex Engineering Projects โดย Dai Ike [slides] [Synopsis]
  • The Dirty Little Secret of Enterprise Data โดย Andy Palmer [slides]  [Synopsis]
  • Anomaly Detection with Deep Learning: Finding the Needle in the Haystack in the Enterprise โดย Adam Gibson [slides] [Synopsis]
  • From BI to Predictive Analytics: Should You Bring an Umbrella if Rain is Predicted? โดย Ingo Mierswa  [slides] [Synopsis]
  • The Investor’s View of Emerging Data Marketspace in Japan and the U.S. โดย Jonathan Epstein [slides] [Synopsis]
  • Artificial Intelligence Sparks the Fourth Industrial Revolution โดย Daniel Pitchford และ Clint Wheelock [slides] [Synopsis]
  • Data Science Initiatives at a FinTech Company โดย Tetsuro Ito [slides] [Synopsis]
  • ConceptNet: Teaching Machines Common Sense โดย Catherine Havasi, Ph.D. [slides] [Synopsis]
  • The Key Role Threat Intelligence Can Play in Your Security Strategy โดย Christopher Ahlberg [slides] [Synopsis]
  • Escaping ETL: The Journey to Information at the Speed of Thought โดย Nenshad Bardoliwalla [slides] [Synopsis]
  • Closing Keynote: Big Data Outlook for 2017 And Why You Should Care โดย Meri Rosich Ph.D. [slides] [Synopsis]

source: http://www.bigdatacon.jp/en/

การสร้างโมเดล Decision Tree สำหรับแอตทริบิวต์ที่เป็นตัวเลข

ในบทความเรื่อง “ขั้นตอนการสร้างโมเดล Decision Tree” ผมได้อธิบายถึงขั้นตอนพื้นฐานในการสร้างโมเดลและตัวอย่างที่ใช้แสดงเป็นข้อมูลประเภทนอมินอล (nominal) เท่านั้น ซึ่งในความเป็นจริงแล้ว ข้อมูลที่ใช้ในการสร้างโมเดลอาจจะเป็นประเภทตัวเลข (numeric) ก็ได้เช่นกัน หลักการของการสร้างโมเดลในกรณีที่แอตทริบิวต์เป็นตัวเลขจะมีขั้นตอนดังนี้

  • เรียงลำดับข้อมูลที่เป็นตัวเลขจากน้อยไปมาก
  • แบ่งข้อมูลออกเป็น 2 ส่วนโดยการหาจุดกึ่งกลางระหว่างค่าตัวเลข 2 ค่าที่แตกต่างกัน เช่น 70 และ 75 จะได้ค่าเป็น 72.5
  • คำนวณค่า Information Gain จากข้อมูล 2 ส่วนที่แบ่งได้ โดยส่วนที่น้อยกว่าเท่ากับจุดกึ่งกลางจะให้เป็นข้อมูลด้านซ้ายของโหนด (node) และข้อมูลส่วนที่เหลือจะให้เป็นข้อมูลด้านขวาของโหนด
  • หาจุดกึ่งกลางของค่าที่แตกต่างกันทุกๆ ค่าและเลือกจุดกึ่งกลางที่ให้ค่า Information Gain สูงที่สุดมาใช้งานต่อ

ดูรายละเอียดการทำงานได้จาก slide ด้านล่างนี้ครับ

ตัววัดประสิทธิภาพของโมเดล Classification

ในการสร้างโมเดลเพื่อจำแนกประเภทข้อมูล (classification) สามารถแบ่งข้อมูลเพื่อทำการทดสอบได้ 3 แบบใหญ่ ดังที่ได้อธิบายไว้ในหัวข้อ “การแบ่งข้อมูลเพื่อนำทดสอบประสิทธิภาพของโมเดล” สำหรับบทความนี้จะแสดงการวัดประสิทธิภาพของโมเดลด้วยตัววัด (metric) ต่างๆ ได้แก่

  • Confusion Matrix
  • Precision
  • Recall
  • F-measure
  • Accuracy
  • ROC Graph
  • AUC (Area Under ROC Curve)

ขั้นตอนการคำนวณต่างๆ สามารถดูได้จาก slide ด้านล่างนี้ครับ

การใช้งาน Workflow จาก myExperiment

ข้อดีอย่างหนึ่งของ RapidMiner Studio คือการสร้าง process ในการทำงานที่ยืดหยุ่นและแก้ไขได้ในภายหลัง หรือส่งไปให้กับเพื่อนร่วมงานเพื่อประหยัดเวลาในการพัฒนา หลายท่านอาจจะรู้จักกับเว็บไซต์ myExperiment ที่ได้ทำการรวบรวม process ต่างๆ ไว้รวมทั้ง process ของ RapidMiner Studio เองด้วย แต่ทว่าการดาวน์โหลดไฟล์จากเว็บไซต์มาใช้ก็ไม่สามารถเปิดได้โดยตรงครับ ต้องมีการติดตั้ง Extension ของ RapidMiner Studio ก่อนโดยมีขั้นตอนดังนี้ครับ (ในตัวอย่างนี้ใชเ

1. เปิดซอฟต์แวร์ RapidMiner Studio 6 และไปที่เมนู Help > Marketplace (Updates and Extensions…) จะปรากฏหน้าต่างดังรูปที่ 1 และในช่องค้นหาให้ใส่คำว่า myExperiment ซอฟต์แวร์จะแสดง Community Extension ขึ้นมา

Screen Shot 2558-07-21 at 1.41.39 PM

 

รูปที่ 1 แสดงหน้าต่าง RapidMiner Marketplace

2. double click ที่หัวข้อ Community Extension 6.4.0 จะเห็นว่าปุ่ม Select for installation จะถูกเลือก คลิกที่ปุ่ม Install 1 packages เพื่อเข้าสู่ขั้นตอนถัดไป

3. หน้าต่างเกี่ยวกับ Confirm Licenses จะปรากฏขึ้นมาดังในรูปที่ 2 คลิกที่เมนู I accept the terms of all license agreements และคลิกที่ปุ่ม Install 1 Packages

Screen Shot 2558-07-21 at 1.41.56 PM

รูปที่ 2 แสดงหน้าต่าง Confirm Licenses

4. หลังจากนั้นซอฟต์แวร์จะทำการดาวน์โหลด Extension เพิ่มเติมมาติดตั้งให้ดังในรูปที่ 3 ครับ

Screen Shot 2558-07-21 at 1.41.59 PM

 

รูปที่ 3 แสดงหน้าต่าง Progress

5. หลังจากติดตั้งเรียบร้อยแล้ว ซอฟต์แวร์จะให้ restart RapidMiner Studio 6 เพื่อให้ Community Extension ทำงาน ดังแสดงในรูปที่ 4

Screen Shot 2558-07-21 at 1.42.04 PM

รูปที่ 4 แสดงการติดตั้งเรียบร้อยแล้วจำเป็นจะต้อง restart RapidMiner Studio เพื่อให้ Extension ตัวใหม่ทำงาน

6. เมื่อซอฟต์แวร์ได้เปิดขึ้นมาจะมี icon ของ Community Extension แสดงอยู่ด้านบนขวาดังในรูปที่ 5

Screen Shot 2558-07-21 at 2.04.03 PM

รูปที่ 5 เปิดใช้งาน RapidMiner Studio 6 จะเห็นว่ามี icon ของ Community Extension ปรากฏอยู่ด้านขวาบน

7. หลังจากนั้นเราจะต้องเปิดหน้าต่างของ myExperiment ขึ้นมาก่อนครับ ถึงจะเลือกและค้นหา process ต่างๆ ได้ โดยการเลือกเมนู View > Show View > MyExperiment Browser หน้าต่างของ MyExperiment Browser จะแสดงขึ้นมาด้านซ้ายล่างดังรูปที่ 6

Screen Shot 2558-07-21 at 2.08.01 PM

รูปที่ 6 หน้าต่าง MyExperiment Browser จะปรากฏขึ้นมาด้านซ้ายล่าง

8. ในส่วนของ MyExperiment Browser คลิกที่ไอคอน Untitled เพื่อขยายหน้าต่างนี้ออกมาให้เต็มหน้าจอ ดังแสดงในรูปที่ 7

Screen Shot 2558-07-21 at 1.43.19 PM

รูปที่ 7 แสดงหน้าต่าง MyExperiment Browser แบบขยายเต็มหน้าจอ

9. จากรูปที่ 7 สามารถเลือก process ที่มีอยู่ใน list หรือค้นหาจากช่อง Search ได้ ในตัวอย่างนี้ผมเลือก process ที่ชื่อว่า Looping over Examples for doing de-aggregation และคลิกที่ปุ่ม Untitled2 เพื่อดาวน์โหลด process จากอินเตอร์เน็ตครับ ซึ่งจะแสดงในส่วน Process ของ RapidMiner Studio 6 ดังแสดงในรูปที่ 8 และสามารถกดปุ่ม Untitled3 เพื่อให้ process ทำงานได้ครับ

Screen Shot 2558-07-21 at 1.43.36 PM

รูปที่ 8 แสดง process ที่ดาวน์โหลดมาจากเว็บไซต์ myExperiment

หมายเหตุ ท่านใดสนใจดูรายละเอียดการใช้งานซอฟต์แวร์ RapidMiner Studio 6 ดูได้จาก คู่มือการใช้งาน RapidMiner Studio 6 ครับ

Capture31

การใช้งาน R ใน RapidMiner Studio 6.4

ก่อนหน้านี้ผมได้แสดงวิธีการติดตั้ง R เพื่อใช้งานใน RapidMiner Studio เวอร์ชันที่ต่ำกว่า 6.4 ไปแล้วตาม link นี้ครับ ซึ่งค่อนข้างซับซ้อนพอควรครับ เมื่อไม่นานมานี้ (04/05/2015) RapidMiner ได้ออกเวอร์ชันใหม่คือ 6.4 ซึ่งมี feature เพิ่มในการเพิ่ม Note ใน  Process ได้และมี extension ที่ทำให้ RapidMiner Studio 6 สามารถใช้งาน R และ Python script ได้ง่ายขึ้น ใน post นี้ผมจะแสดงวิธีการติดตั้ง R Extension และการตั้งค่าต่างๆ เพื่อให้ใช้งาน R ใน RapidMiner Studio 6.4 ได้ครับ ขั้นตอนต่างๆ มีดังนี้

1. Update RapidMiner Studio 6 ให้เป็นเวอร์ชัน 6.4 ก่อนครับ โดยการคลิกที่เมนู​ Help > Marketplace (Update and Extensions…) จะปรากฏหน้าต่างดังในรูป

Capture1

  • ในช่อง Search พิมพ์คำว่า R และกดปุ่ม Search
  • เลือก Extension ที่ชื่อว่า R Scripting 6.4.0
  • คลิกที่ปุ่ม Select for Installation
  • คลิกที่ปุ่ม Install 1 packages

2. หลังจากนั้นหน้าต่าง Confirm Licenses จะแสดงขึ้นมาในรูป

Capture2

  • คลิกที่เมนู I accept the terms of all license agreements เพื่อ accept license agreement
  • คลิกที่ปุ่ม Install 1 packages

3. ซอฟต์แวร์จะดาวน์โหลด Extension มาจากอินเตอร์เน็ตและเมื่อดาวน์โหลดเสร็จเรียบร้อยแล้วจะปรากฏหน้าต่างดังในรูปเพื่อให้ทำการ restart RapidMiner Studio 6.4 อีกครั้ง ให้ทำการคลิกที่ปุ่ม Yes

Capture3

4. RapidMiner Studio 6.4 จะ restart ขึ้นมาใหม่และจะมี icon ของ R Scripting แสดงขึ้นมาด้านขวาบนดังในรูป

Capture4

Continue reading

เอกสารประกอบการบรรยายเรื่อง Attribute (Feature) Selection ด้วย RapidMiner Studio 6

ดาต้า คิวบ์ได้จัดอบรมหลักสูตร Practical Data Mining with RapidMiner Studio 6 เป็นเวลาเกือบจะครบ 1 ปีในช่วงเดือนพฤษภาคม 2558 นี้แล้วครับ ในช่วง 1 ปีที่ผ่านมาผมโชคดีได้รับโอกาสมากมาย หนึ่งในนั้นคือการได้รับโอกาสให้ไปสอนวิชา Data Mining ให้กับนักศึกษาปริญญาโทที่มหาวิทยาลัยต่างๆ ทำให้มีเนื้อหาเพิ่มขึ้นจากการอบรมที่ใช้เวลา 3 วันพอสมควร วันนี้ผมขออนุญาตแชร์เอกสารประกอบการบรรยายเรื่อง Attribute (Feature) Selection โดยจะอธิบาย concept และการใช้งานในซอฟต์แวร์ RapidMiner Studio 6 ท่านใดสนใจดูได้จาก slide ด้านล่างได้เลยครับ

นอกจากน้ีท่านใดสนใจ Data Mining และการใช้งานซอฟต์แวร์ RapidMiner Studio 6 ดาต้า คิวบ์กำลังเปิดรับสมัครรุ่นที่ 11 ท่านใดสนใจอ่านรายละเอียดเพิ่มเติมได้ที่นี่ครับ

10 เรื่องที่มีจำนวนผู้ชม (Reach), Like และ Share มากที่สุดในปี 2014 จาก Facebook ของดาต้า คิวบ์

ช่วงนี้ก็ใกล้จะปีใหม่ 2015 แล้วครับ เห็นหลายๆ เว็บได้ทำการสรุปเรื่องต่างๆ ในปี 2014 ทางดาต้า คิวบ์เลยขอสรุปตัวเลขจำนวน post ของเราที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science โดยมีค่าสรุปดังนี้

  • post ข้อความเป็นจำนวน 391 ข้อความ
  • post ที่จำนวนผู้ชมเห็น (reach) มากกว่า 1,000 คนจำนวน 49 ข้อความ

หลังจากการพิจารณาจำนวน post ทั้งหมดแล้ว เรานำจำนวนที่ผู้ชมเห็น จำนวนการ Like และจำนวนการ Share  มาคำนวณโดยการทำ normalization เพื่อให้ได้คะแนนรวมออกมาและสรุป post ที่มีค่าคะแนนมากที่สุด 10 post ได้ออกมาเป็นดังนี้

  1. ซอฟต์แวร์ PSPP ซึ่งเป็นซอฟต์แวร์ open source ที่สามารถใช้แทนซอฟต์แวร์ SPSS ได้ครับ สามารถดูรายละเอียดเพิ่มเติมของซอฟต์แวร์นี้จาก http://www.gnu.org/software/pspp/
    rank1
  2. ดาวน์โหลดฟรีหนังสือ The Data Analytics Handbook ซึ่งมี 3 เล่ม สามารถดูรายละเอียดเพิ่มเติมได้จาก https://www.teamleada.com/handbook
    rank2
  3. หนังสือ An Introduction to Data Mining ซึ่งเป็นหนังสือที่แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining สามารถอ่านผ่านทางหน้าเว็บ http://www.saedsayad.com/ ได้เลยครับ
    rank3
  4. หนังสือ Social Media Mining ซึ่งสามารถดาวน์โหลดได้ฟรี ดูรายละเอียเพิ่มเติมได้จาก http://dataminingtrend.com/2014/social-media-mining-an-introduction-2/
    rank4
  5. รูปหน้าปกหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย) มีคนกด Like มากที่สุดในหน้า Page ของดาต้า คิวบ์ครับ ดูรายละเอียดเพิ่มเติมได้จาก https://www.facebook.com/datacube.th
    rank5
  6. VDO clip ชุด Machine Learning Summer School 2014 ซึ่งมีจำนวน 47 ตอนก็ได้รับความนิยมเช่นกัน สามารถดู clip เหล่านี้ได้จาก https://www.youtube.com/playlist?list=PLZSO_6-bSqHQCIYxE3ycGLXHMjK3XV7Iz
    rank6
  7. ดาต้า คิวบ์ได้แจกหนังสือเกี่ยวกับการใช้งาน Weka Explorer ฟรี และมีผู้สนใจดาวน์โหลดไปแล้วเป็นจำนวนมากกว่า 600 คนแล้วครับ  ท่านใดสนใจดาวน์โหลดหนังสือเล่มนี้ โหลดฟรีได้ที่ http://dataminingtrend.com/2014/free-weka-book/
    rank7
  8. ในช่วงปี 2014 ที่ผ่านมา Big Data ได้รับความสนใจเป็นอย่างมากในประเทศไทยเรา ลองมาดู Trend ของ Big Data ในปี 2015 กันครับ ดูรายละเอียดเพิ่มได้จาก http://channels.theinnovationenterprise.com/articles/big-data-top-trends-in-2015
    rank8
  9. หนังสือ Predictive Analysis for Dummies เป็นอีกเล่มที่ดาวน์โหลดได้ฟรี ดูรายละเอียดเพิ่มเติมจาก http://dataminingtrend.com/2014/free-predictive-analytics-for-dum/
    rank9
  10. ลำดับสุดท้ายเป็นเรื่องของการทำ Text mining บน Google Sheet ได้อย่างง่ายๆ ท่านในดสนใจดูรายละเอียดเพิ่มเดิมได้ที่ http://blog.aylien.com/post/97133486053/introducing-text-analysis-for-google-sheets
    rank10

นอกจากทั้ง 10 อันดับที่ได้สรุปมาแล้ว Page ดาต้า คิวบ์ยังมีเนื้อหาดีๆ ที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science อีกมากครับ ท่านใดสนใจดูรายละเอียดเพิ่มได้ที่ https://www.facebook.com/datacube.th นะครับ 🙂

Data Mining for Statisticians (vdo)

ขอแนะนำวิดีโอเรื่อง Data Mining for Statisticians แบ่งเป็นตอนสั้นๆ ตอนละประมาณ 20 นาทีซึ่งประกอบด้วย 6 ตอนดังนี้

 

โมเดล Naive Bayes และการแปลความหมาย

หลังจากบทความที่แล้วผมได้อธิบายการสร้างโมเดล Decision Tree ไปแล้ว ในวันนี้ขออธิบายวิธีการทำ classification อีกเทคนิคหนึ่งที่ได้รับความนิยมก็คือวิธี Naive Bayes หลักการของวิธีการนี้จะใช้การคำนวณความน่าจะเป็น ก่อนอื่นขอทบทวนความน่าจะเป็นที่เรียกว่า conditional proabability เสียก่อน ดังแสดงในสมการด้านล่าง

Screen Shot 2557-03-18 at 9.21.18 AM

  • P(A|B) คือ ค่า conditional probability หรือค่าความน่าจะเป็นที่เกิดเหตุการณ์ B ขึ้นก่อนและจะมีเหตุการณ์ A ตามมา
  • P(AB) คือ ค่า joint probability หรือค่าความน่าจะเป็นที่เหตุการณ์ A และเหตุการณ์ B เกิดขึ้นร่วมกัน
  • P(B) คือ ค่าความน่าจะเป็นที่เหตุการณ์ B เกิดขึ้น

ในลักษณะเดียวกันเราจะเขียน P(B|A) หรือค่าความน่าจะเป็นที่เหตุการณ์ A เกิดขึ้นก่อนและเหตุการณ์ B เกิดขึ้นตามมาทีหลังได้เป็น

Screen Shot 2557-03-18 at 9.25.42 AM

Continue reading