สไลด์บางส่วนจากการอบรม Practical Data Mining with RapidMiner Studio 7

ตัวอย่างสไลด์การอบรม Practical Data Mining with RapidMiner Studio 7 รุ่นที่ 17 ครับ ท่านใดสนใจดูรายละเอียดการอบรมรุ่นถัดไปได้ที่ http://dataminingtrend.com/2014/training/rapidminer-training-18/

แจกฟรี E-book บน Ookbee เรื่อง An Introduction to Data Mining Techniques (ฉบับภาษาไทย)

IMG_25600413_103410

เนื่องในโอกาสวันสงกรานต์ 2560 ดาค้า คิวบ์ขอมอง E-book เรื่อง An Introduction to Data Mining Techniques (ฉบับภาษาไทย) ซึ่งสามารถเปิดอ่านได้ใน App Ookbee

สารบัญ

  • บทที่ 1 การวิเคราะห์ข้อมูลด้วยเทคนิค ดาต้า ไมน์นิง (Data Mining)
    • 1.1 แนะนำการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง (Data Mining)
      • ความหมายของดาต้า ไมน์นิง
      • การประยุกต์ใช้งานดาต้า ไมน์นิง
    • 1.2 ข้อมูลในรูปแบบต่างๆ
      • ข้อมูลแบบมีโครงสร้าง (structured data)
      • ข้อมูลแบบไม่มีโครงสร้าง (unstructured data)
    • 1.3 เทคนิคในการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง
      • เทคนิคการเรียนรู้แบบไม่มีผู้สอน (unsupervised learning)
      • เทคนิคการเรียนรู้แบบมีผู้สอน (supervised learning)
  • บทที่ 2 การหากฎความสัมพันธ์ (Association Rules)
    • กฎความสัมพันธ์และการประยุกต์ใช้งาน
    • เทคนิคในการหากฎความสัมพันธ์ด้วยวิธี Apriori
  • บทที่ 3 การแบ่งกลุ่มข้อมูล (Clustering)
    • การแบ่งกลุ่มข้อมูลและการประยุกต์ใช้งาน
    • การหาระยะห่างระหว่างข้อมูล (distance function)
    • เทคนิคการแบ่งกลุ่มข้อมูลด้วยวิธี K-Means
    • เทคนิคการแบ่งกลุ่มข้อมูลด้วยวิธี Agglomerative Clustering
  • บทที่ 4 การจำแนกประเภทข้อมูล (Classification)
    • การจำแนกประเภทข้อมูลและการประยุกต์ใช้งาน
    • ตัววัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล
    • การแบ่งข้อมูลเพื่อการวัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Decision Tree
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Naive Bayes
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี K-Nearest Neighbors (K-NN)
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Neural Network
  • บทที่ 5 กระบวนการวิเคราะห์ข้อมูลด้วยCRISP-DM
    • แนะนำกระบวนการวิเคราะห์ข้อมูล CRISP-DM
      • Business Understanding
      • Data Understanding
      • Data Preparation
      • Modeling
      • Evaluation
      • Deployment
    • ตัวอย่างการใช้งาน CRISP-DM ในการแนะนำสาขาวิชาให้กับนักศึกษา

ท่านใดสนใจรบกวนกรอกข้อมูลในฟอร์มด้านล่างได้เลยครับ


หมายเหตุ เนื่องจากโปรโมชันนี้มีจำนวนจำกัดหลังจากได้รับ Promotion Code แล้วกรุณากรอกทันทีครับ ไม่เช่นนั้นอาจจะหมดก่อนครับ

ส่วนท่านใดต้องการหนังสือเล่มนี้ในรูปแบบเล่ม (hard copy) สามารถสั่งจองได้ที่หน้า “An Introduction to Data Mining Techniques (ฉบับภาษาไทย)” ครับ

สไลด์การบรรยายในงาน Big Data Analytics Tokyo 2017

16648985_10211455645409453_2225749924461860042_n

งาน Big Data Analytics Tokyo 2017 ที่จัดขึ้นที่ประเทศญี่ปุ่นในระหว่างวันที่ 7-8 กุมภาพันธ์มีการบรรยายที่น่าสนใจหลายงานครับ สามารถดาวน์โหลดสไลด์การบรรยายบางส่วนได้ดังนี้ครับ

  • Building Innovation Ecosystems: What Can Tokyo Learn from Cambridge? โดย Tim Rowe [slides] [Synopsis]
  • A Behind-the-Scenes Peek of an Analytics Startup โดย Takafumi Kusano [slides] [Synopsis]
  • The New Vanguard for Business Connectivity, Design, and the Internet of Things โดย David Rose  [slides] [Synopsis]
  • Encoding Discourse: Novel Interfaces for Collaborative Decision-making โดย Ira Winder [slides] [Synopsis]
  • Uncovering Team Performance Dynamics with Data & Analytics in Complex Engineering Projects โดย Dai Ike [slides] [Synopsis]
  • The Dirty Little Secret of Enterprise Data โดย Andy Palmer [slides]  [Synopsis]
  • Anomaly Detection with Deep Learning: Finding the Needle in the Haystack in the Enterprise โดย Adam Gibson [slides] [Synopsis]
  • From BI to Predictive Analytics: Should You Bring an Umbrella if Rain is Predicted? โดย Ingo Mierswa  [slides] [Synopsis]
  • The Investor’s View of Emerging Data Marketspace in Japan and the U.S. โดย Jonathan Epstein [slides] [Synopsis]
  • Artificial Intelligence Sparks the Fourth Industrial Revolution โดย Daniel Pitchford และ Clint Wheelock [slides] [Synopsis]
  • Data Science Initiatives at a FinTech Company โดย Tetsuro Ito [slides] [Synopsis]
  • ConceptNet: Teaching Machines Common Sense โดย Catherine Havasi, Ph.D. [slides] [Synopsis]
  • The Key Role Threat Intelligence Can Play in Your Security Strategy โดย Christopher Ahlberg [slides] [Synopsis]
  • Escaping ETL: The Journey to Information at the Speed of Thought โดย Nenshad Bardoliwalla [slides] [Synopsis]
  • Closing Keynote: Big Data Outlook for 2017 And Why You Should Care โดย Meri Rosich Ph.D. [slides] [Synopsis]

source: http://www.bigdatacon.jp/en/

แจกฟรี E-book บน Ookbee เรื่อง Introduction to Business Analytics with RapidMiner Studio 6

ดาต้า คิวบ์แจก E-book ฟรี จำนวน 99 เล่ม ท่านใดสนใจ รบกวนกรอกข้อมูลในฟอร์มด้านล่างเพื่อรับ Promotion Code และวิธีการกรอกเพื่อดาวน์โหลดฟรีใน Ookbee application ได้เลยครับ (Update 01/04/2017)

Capture356


หมายเหตุ เนื่องจากโปรโมชันนี้มีจำนวนจำกัดหลังจากได้รับ Promotion Code แล้วกรุณากรอกทันทีครับ ไม่เช่นนั้นอาจจะหมดก่อนครับ

ส่วนท่านใดต้องการหนังสือเล่มนี้ในรูปแบบเล่ม (hard copy) สามารถสั่งจองได้ที่หน้า “สั่งจองหนังสือ Introduction to Business Analytics with RapidMiner Studio 6 (ฉบับภาษาไทย)” ครับ

สไลด์การบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics

เมื่อวันที่ 8 มีนาคม 2560 ดาต้า คิวบ์ได้รับโอกาสไปบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics ณ คณะวิทยาการจัดการ มหาวิทยาลัยราชภัฏเพชรบุรี ท่านใดสนใจสไลด์การบรรยายดูได้จากรูปด้านล่างนี้ได้เลยครับ

การสร้างโมเดล Decision Tree สำหรับแอตทริบิวต์ที่เป็นตัวเลข

ในบทความเรื่อง “ขั้นตอนการสร้างโมเดล Decision Tree” ผมได้อธิบายถึงขั้นตอนพื้นฐานในการสร้างโมเดลและตัวอย่างที่ใช้แสดงเป็นข้อมูลประเภทนอมินอล (nominal) เท่านั้น ซึ่งในความเป็นจริงแล้ว ข้อมูลที่ใช้ในการสร้างโมเดลอาจจะเป็นประเภทตัวเลข (numeric) ก็ได้เช่นกัน หลักการของการสร้างโมเดลในกรณีที่แอตทริบิวต์เป็นตัวเลขจะมีขั้นตอนดังนี้

  • เรียงลำดับข้อมูลที่เป็นตัวเลขจากน้อยไปมาก
  • แบ่งข้อมูลออกเป็น 2 ส่วนโดยการหาจุดกึ่งกลางระหว่างค่าตัวเลข 2 ค่าที่แตกต่างกัน เช่น 70 และ 75 จะได้ค่าเป็น 72.5
  • คำนวณค่า Information Gain จากข้อมูล 2 ส่วนที่แบ่งได้ โดยส่วนที่น้อยกว่าเท่ากับจุดกึ่งกลางจะให้เป็นข้อมูลด้านซ้ายของโหนด (node) และข้อมูลส่วนที่เหลือจะให้เป็นข้อมูลด้านขวาของโหนด
  • หาจุดกึ่งกลางของค่าที่แตกต่างกันทุกๆ ค่าและเลือกจุดกึ่งกลางที่ให้ค่า Information Gain สูงที่สุดมาใช้งานต่อ

ดูรายละเอียดการทำงานได้จาก slide ด้านล่างนี้ครับ

การจัดการข้อมูลจากฐานข้อมูลด้วย RapidMiner Studio 7

นอกจากการใช้ RapidMiner Studio 7 ในการวิเคราะห์ข้อมูลแล้วเรายังสามารถเอานำมาใช้จัดการข้อมูลได้แบบง่ายๆ โดยที่ไม่ต้องเขียน SQL เลยครับ สไลด์นี้แสดงการจัดการข้อมูลแบบเบื้องต้นโดยแสดงตัวอย่างการจัดการดังนี้ (คลิกที่ภาพเพื่ออ่านไฟล์ PDF ได้เลยครับ)

rapidminer_ads9

  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student
  • แสดงข้อมูลชื่อ (First) ของนักศึกษาจากตาราง Student
  • แสดงข้อมูลนามสกุล (Last) ของนักศึกษาจากตาราง Student
  • แสดงข้อมูลชื่อ (First) และ นามสกุล (Last) ของนักศึกษาจากตาราง Student
  • แสดงข้อมูลนามสกุล (Last) ของนักศึกษาที่แตกต่างกันจากตาราง Student
  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student ซึ่งมีชื่อว่า John
  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student ยกเว้นนักศึกษาที่ชื่อ John
  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Grade ที่มีคะแนนมากกว่าหรือเท่ากับ 60 คะแนน
  • แสดงเฉพาะข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) จากตาราง Grade ที่มีคะแนนน้อยกว่าหรือเท่ากับ 60 คะแนน
  • แสดงเฉพาะข้อมูลชื่อ (First) นามสกุล (Last) คะแนน (Mark) และชื่อวิชา (Title) จากตาราง Grade ที่มีคะแนนระหว่าง 40-60 คะแนน
  • แสดงข้อมูลคะแนน (Mark) จากตาราง Grade โดยเรียงลำดับคะแนนจากน้อยไปมาก
  • แสดงข้อมูลคะแนน (Mark) จากตาราง Grade โดยเรียงลำดับจากมากไปน้อย
  • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่มีสนามสกุลว่า Jones
  • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่ไม่มีมีสนามสกุลว่า Jones
  • นักศึกษาที่ลงทะเบียนเรียนวิชา Intro to AI มีคะแนนน้อยสุดเท่าไร
  • นักศึกษาที่ลงทะเบียนเรียนวิชา Intro to AI มีคะแนนมากสุดเท่าไร
  • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่ลงทะเบียนเรียนวิชา Programming (รวมทั้ง 1 และ 2)
  • นักศึกษาที่ลงทะเบียนเรียนวิชา Programming 2 มีคะแนนมากสุดเท่าไร

ท่านใดสนใจดูรายละเอียดได้จากไฟล์ PDF นี้ครับ

การจัดการข้อมูลด้วย RapidMiner Studio 6

[เอกสารนี้เป็นบทที่ 2 ของหนังสือ Introduction to Bussiness Analytics with RapidMiner Studio 6 ซึ่งลดราคาพิเศษครับ ซื้อพร้อมหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย)​ ราคารวม 500 บาทครับ ดูรายละเอียดได้ที่นี่ครับ]

 

ตัววัดประสิทธิภาพของโมเดล Classification

ในการสร้างโมเดลเพื่อจำแนกประเภทข้อมูล (classification) สามารถแบ่งข้อมูลเพื่อทำการทดสอบได้ 3 แบบใหญ่ ดังที่ได้อธิบายไว้ในหัวข้อ “การแบ่งข้อมูลเพื่อนำทดสอบประสิทธิภาพของโมเดล” สำหรับบทความนี้จะแสดงการวัดประสิทธิภาพของโมเดลด้วยตัววัด (metric) ต่างๆ ได้แก่

  • Confusion Matrix
  • Precision
  • Recall
  • F-measure
  • Accuracy
  • ROC Graph
  • AUC (Area Under ROC Curve)

ขั้นตอนการคำนวณต่างๆ สามารถดูได้จาก slide ด้านล่างนี้ครับ

สไลด์การดึงข้อมูลจาก Twitter ด้วย RapidMiner Studio 7

ตอนนี้ท่านใดที่สนใจดึงข้อมูลจาก Twitter สามารถทำได้ง่ายด้วยซอฟต์แวร์ RapidMiner Studio 7 ครับ รายละเอียดการทำงานดูได้จาก slide ด้านล่างได้เลยครับ ^^