สไลด์บางส่วนจากการอบรม Practical Data Mining with RapidMiner Studio 7

ตัวอย่างสไลด์การอบรม Practical Data Mining with RapidMiner Studio 7 รุ่นที่ 17 ครับ ท่านใดสนใจดูรายละเอียดการอบรมรุ่นถัดไปได้ที่ http://dataminingtrend.com/2014/training/rapidminer-training-18/

แจกฟรี E-book บน Ookbee เรื่อง An Introduction to Data Mining Techniques (ฉบับภาษาไทย)

IMG_25600413_103410

เนื่องในโอกาสวันสงกรานต์ 2560 ดาค้า คิวบ์ขอมอง E-book เรื่อง An Introduction to Data Mining Techniques (ฉบับภาษาไทย) ซึ่งสามารถเปิดอ่านได้ใน App Ookbee

สารบัญ

  • บทที่ 1 การวิเคราะห์ข้อมูลด้วยเทคนิค ดาต้า ไมน์นิง (Data Mining)
    • 1.1 แนะนำการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง (Data Mining)
      • ความหมายของดาต้า ไมน์นิง
      • การประยุกต์ใช้งานดาต้า ไมน์นิง
    • 1.2 ข้อมูลในรูปแบบต่างๆ
      • ข้อมูลแบบมีโครงสร้าง (structured data)
      • ข้อมูลแบบไม่มีโครงสร้าง (unstructured data)
    • 1.3 เทคนิคในการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง
      • เทคนิคการเรียนรู้แบบไม่มีผู้สอน (unsupervised learning)
      • เทคนิคการเรียนรู้แบบมีผู้สอน (supervised learning)
  • บทที่ 2 การหากฎความสัมพันธ์ (Association Rules)
    • กฎความสัมพันธ์และการประยุกต์ใช้งาน
    • เทคนิคในการหากฎความสัมพันธ์ด้วยวิธี Apriori
  • บทที่ 3 การแบ่งกลุ่มข้อมูล (Clustering)
    • การแบ่งกลุ่มข้อมูลและการประยุกต์ใช้งาน
    • การหาระยะห่างระหว่างข้อมูล (distance function)
    • เทคนิคการแบ่งกลุ่มข้อมูลด้วยวิธี K-Means
    • เทคนิคการแบ่งกลุ่มข้อมูลด้วยวิธี Agglomerative Clustering
  • บทที่ 4 การจำแนกประเภทข้อมูล (Classification)
    • การจำแนกประเภทข้อมูลและการประยุกต์ใช้งาน
    • ตัววัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล
    • การแบ่งข้อมูลเพื่อการวัดประสิทธิภาพของโมเดลการจำแนกประเภทข้อมูล
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Decision Tree
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Naive Bayes
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี K-Nearest Neighbors (K-NN)
    • เทคนิคการจำแนกประเภทข้อมูลด้วยวิธี Neural Network
  • บทที่ 5 กระบวนการวิเคราะห์ข้อมูลด้วยCRISP-DM
    • แนะนำกระบวนการวิเคราะห์ข้อมูล CRISP-DM
      • Business Understanding
      • Data Understanding
      • Data Preparation
      • Modeling
      • Evaluation
      • Deployment
    • ตัวอย่างการใช้งาน CRISP-DM ในการแนะนำสาขาวิชาให้กับนักศึกษา

ท่านใดสนใจรบกวนกรอกข้อมูลในฟอร์มด้านล่างได้เลยครับ


หมายเหตุ เนื่องจากโปรโมชันนี้มีจำนวนจำกัดหลังจากได้รับ Promotion Code แล้วกรุณากรอกทันทีครับ ไม่เช่นนั้นอาจจะหมดก่อนครับ

ส่วนท่านใดต้องการหนังสือเล่มนี้ในรูปแบบเล่ม (hard copy) สามารถสั่งจองได้ที่หน้า “An Introduction to Data Mining Techniques (ฉบับภาษาไทย)” ครับ

สไลด์การบรรยายในงาน Big Data Analytics Tokyo 2017

16648985_10211455645409453_2225749924461860042_n

งาน Big Data Analytics Tokyo 2017 ที่จัดขึ้นที่ประเทศญี่ปุ่นในระหว่างวันที่ 7-8 กุมภาพันธ์มีการบรรยายที่น่าสนใจหลายงานครับ สามารถดาวน์โหลดสไลด์การบรรยายบางส่วนได้ดังนี้ครับ

  • Building Innovation Ecosystems: What Can Tokyo Learn from Cambridge? โดย Tim Rowe [slides] [Synopsis]
  • A Behind-the-Scenes Peek of an Analytics Startup โดย Takafumi Kusano [slides] [Synopsis]
  • The New Vanguard for Business Connectivity, Design, and the Internet of Things โดย David Rose  [slides] [Synopsis]
  • Encoding Discourse: Novel Interfaces for Collaborative Decision-making โดย Ira Winder [slides] [Synopsis]
  • Uncovering Team Performance Dynamics with Data & Analytics in Complex Engineering Projects โดย Dai Ike [slides] [Synopsis]
  • The Dirty Little Secret of Enterprise Data โดย Andy Palmer [slides]  [Synopsis]
  • Anomaly Detection with Deep Learning: Finding the Needle in the Haystack in the Enterprise โดย Adam Gibson [slides] [Synopsis]
  • From BI to Predictive Analytics: Should You Bring an Umbrella if Rain is Predicted? โดย Ingo Mierswa  [slides] [Synopsis]
  • The Investor’s View of Emerging Data Marketspace in Japan and the U.S. โดย Jonathan Epstein [slides] [Synopsis]
  • Artificial Intelligence Sparks the Fourth Industrial Revolution โดย Daniel Pitchford และ Clint Wheelock [slides] [Synopsis]
  • Data Science Initiatives at a FinTech Company โดย Tetsuro Ito [slides] [Synopsis]
  • ConceptNet: Teaching Machines Common Sense โดย Catherine Havasi, Ph.D. [slides] [Synopsis]
  • The Key Role Threat Intelligence Can Play in Your Security Strategy โดย Christopher Ahlberg [slides] [Synopsis]
  • Escaping ETL: The Journey to Information at the Speed of Thought โดย Nenshad Bardoliwalla [slides] [Synopsis]
  • Closing Keynote: Big Data Outlook for 2017 And Why You Should Care โดย Meri Rosich Ph.D. [slides] [Synopsis]

source: http://www.bigdatacon.jp/en/

แจกฟรี E-book บน Ookbee เรื่อง Introduction to Business Analytics with RapidMiner Studio 6

ดาต้า คิวบ์แจก E-book ฟรี จำนวน 99 เล่ม ท่านใดสนใจ รบกวนกรอกข้อมูลในฟอร์มด้านล่างเพื่อรับ Promotion Code และวิธีการกรอกเพื่อดาวน์โหลดฟรีใน Ookbee application ได้เลยครับ (Update 01/04/2017)

Capture356


หมายเหตุ เนื่องจากโปรโมชันนี้มีจำนวนจำกัดหลังจากได้รับ Promotion Code แล้วกรุณากรอกทันทีครับ ไม่เช่นนั้นอาจจะหมดก่อนครับ

ส่วนท่านใดต้องการหนังสือเล่มนี้ในรูปแบบเล่ม (hard copy) สามารถสั่งจองได้ที่หน้า “สั่งจองหนังสือ Introduction to Business Analytics with RapidMiner Studio 6 (ฉบับภาษาไทย)” ครับ

สไลด์การบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics

เมื่อวันที่ 8 มีนาคม 2560 ดาต้า คิวบ์ได้รับโอกาสไปบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics ณ คณะวิทยาการจัดการ มหาวิทยาลัยราชภัฏเพชรบุรี ท่านใดสนใจสไลด์การบรรยายดูได้จากรูปด้านล่างนี้ได้เลยครับ

การสร้างโมเดล Decision Tree สำหรับแอตทริบิวต์ที่เป็นตัวเลข

ในบทความเรื่อง “ขั้นตอนการสร้างโมเดล Decision Tree” ผมได้อธิบายถึงขั้นตอนพื้นฐานในการสร้างโมเดลและตัวอย่างที่ใช้แสดงเป็นข้อมูลประเภทนอมินอล (nominal) เท่านั้น ซึ่งในความเป็นจริงแล้ว ข้อมูลที่ใช้ในการสร้างโมเดลอาจจะเป็นประเภทตัวเลข (numeric) ก็ได้เช่นกัน หลักการของการสร้างโมเดลในกรณีที่แอตทริบิวต์เป็นตัวเลขจะมีขั้นตอนดังนี้

  • เรียงลำดับข้อมูลที่เป็นตัวเลขจากน้อยไปมาก
  • แบ่งข้อมูลออกเป็น 2 ส่วนโดยการหาจุดกึ่งกลางระหว่างค่าตัวเลข 2 ค่าที่แตกต่างกัน เช่น 70 และ 75 จะได้ค่าเป็น 72.5
  • คำนวณค่า Information Gain จากข้อมูล 2 ส่วนที่แบ่งได้ โดยส่วนที่น้อยกว่าเท่ากับจุดกึ่งกลางจะให้เป็นข้อมูลด้านซ้ายของโหนด (node) และข้อมูลส่วนที่เหลือจะให้เป็นข้อมูลด้านขวาของโหนด
  • หาจุดกึ่งกลางของค่าที่แตกต่างกันทุกๆ ค่าและเลือกจุดกึ่งกลางที่ให้ค่า Information Gain สูงที่สุดมาใช้งานต่อ

ดูรายละเอียดการทำงานได้จาก slide ด้านล่างนี้ครับ

การจัดการข้อมูลจากฐานข้อมูลด้วย RapidMiner Studio 7

นอกจากการใช้ RapidMiner Studio 7 ในการวิเคราะห์ข้อมูลแล้วเรายังสามารถเอานำมาใช้จัดการข้อมูลได้แบบง่ายๆ โดยที่ไม่ต้องเขียน SQL เลยครับ สไลด์นี้แสดงการจัดการข้อมูลแบบเบื้องต้นโดยแสดงตัวอย่างการจัดการดังนี้ (คลิกที่ภาพเพื่ออ่านไฟล์ PDF ได้เลยครับ)

rapidminer_ads9

  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student
  • แสดงข้อมูลชื่อ (First) ของนักศึกษาจากตาราง Student
  • แสดงข้อมูลนามสกุล (Last) ของนักศึกษาจากตาราง Student
  • แสดงข้อมูลชื่อ (First) และ นามสกุล (Last) ของนักศึกษาจากตาราง Student
  • แสดงข้อมูลนามสกุล (Last) ของนักศึกษาที่แตกต่างกันจากตาราง Student
  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student ซึ่งมีชื่อว่า John
  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Student ยกเว้นนักศึกษาที่ชื่อ John
  • แสดงข้อมูลทั้งหมดของนักศึกษาจากตาราง Grade ที่มีคะแนนมากกว่าหรือเท่ากับ 60 คะแนน
  • แสดงเฉพาะข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) จากตาราง Grade ที่มีคะแนนน้อยกว่าหรือเท่ากับ 60 คะแนน
  • แสดงเฉพาะข้อมูลชื่อ (First) นามสกุล (Last) คะแนน (Mark) และชื่อวิชา (Title) จากตาราง Grade ที่มีคะแนนระหว่าง 40-60 คะแนน
  • แสดงข้อมูลคะแนน (Mark) จากตาราง Grade โดยเรียงลำดับคะแนนจากน้อยไปมาก
  • แสดงข้อมูลคะแนน (Mark) จากตาราง Grade โดยเรียงลำดับจากมากไปน้อย
  • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่มีสนามสกุลว่า Jones
  • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่ไม่มีมีสนามสกุลว่า Jones
  • นักศึกษาที่ลงทะเบียนเรียนวิชา Intro to AI มีคะแนนน้อยสุดเท่าไร
  • นักศึกษาที่ลงทะเบียนเรียนวิชา Intro to AI มีคะแนนมากสุดเท่าไร
  • แสดงข้อมูลชื่อ (First) นามสกุล (Last) และคะแนน (Mark) ของนักศึกษาที่ลงทะเบียนเรียนวิชา Programming (รวมทั้ง 1 และ 2)
  • นักศึกษาที่ลงทะเบียนเรียนวิชา Programming 2 มีคะแนนมากสุดเท่าไร

ท่านใดสนใจดูรายละเอียดได้จากไฟล์ PDF นี้ครับ

10 เรื่องที่มีจำนวนผู้ชม (Reach), Like และ Share มากที่สุดในปี 2015 จาก Facebook ของดาต้า คิวบ์

ช่วงนี้ก็ใกล้จะปีใหม่ 2016 แล้วครับ เห็นหลายๆ เว็บได้ทำการสรุปเรื่องต่างๆ ในปี 2015 ทางดาต้า คิวบ์เลยขอสรุป post ของเราที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science ซึ่งมีผู้กด Like และ Share มากที่สุด 10 อันดับ ดังนี้ครับ (กดดูรายละเอียดที่รูปภาพได้เลยครับ)

  1. ท่านใดที่สนใจงานวิจัยภายของจุฬาลงกรณ์มหาวิทยาลัย (CU) สามารถค้นหาและดาวน์โหลดไฟล์แบบเต็ม (full text) ได้แล้วครับ รายละเอียดดูได้จาก link ด้านล่างได้เลยครับ ^^
    ขอขอบคุณคุณ Kieng Kub ที่แชร์มาครับ
    Screen Shot 2558-12-31 at 2.54.45 AM
  2. ท่านใดเขียน paper หรือเขียนเล่มวิทยานิพนธ์แล้วไม่ได้ใช้ Latex ของดู Endnote เพื่อจัดการ reference ก็ดีนะครับ ^^

    credit: ขอขอบคุณอ. Suthanya Doung In ที่แนะนำครับ
    Screen Shot 2558-12-31 at 3.02.34 AM
  3. ท่านใดที่ใช้ SPSS อยู่ลองดูซอฟต์แวร์ opensource ที่ช่วยวิเคราะห์ข้อมูลทางสถิติได้คล้ายๆ กันครับ ซอฟต์แวร์นี้ชื่อ PSPP (อักษรสลับกับ SPSS) ท่านใดสนใจดูรายละเอียดได้จาก link ด้านล่างเลยครับ ^^
    Screen Shot 2558-12-31 at 3.03.55 AM
  4. สไลด์การบรรยายเรื่อง Introduction to Data Mining & Big Data Analytics แบบง่ายๆ ครับ ท่านใดสนใจดูได้จาก link ด้านล่างได้เลยครับ ^^
    Screen Shot 2558-12-31 at 3.05.40 AM
  5. กระบวนการหนึ่งที่นิยมในการวิเคราะห์ข้อมูลด้วย Data Mining คือ CRISP-DM บทความนี้อธิบาย 6 ขั้นตอนของ CRISP-DM และการประยุกต์ใช้งานในด้านการศึกษา ท่านใดสนใจดูได้จาก link ด้านล่างได้เลยครับ ^^
    ‪#‎ILikeDataMining‬
    Screen Shot 2558-12-31 at 3.06.47 AM
  6. สวัสดีเราคือโอเปอเรเตอร์ K-Means มาดูว่าเราทำงานยังไงบ้างนะครับ ^^
    Screen Shot 2558-12-31 at 3.08.13 AM
  7. นอกจาก R, Python, RapidMiner แล้วยังมี Weka ด้วยนะครับ ดาต้า คิวบ์แจกหนังสือการใช้งาน Weka ฟรี (แบบ PDF) ท่านใดสนใจดูรายละเอียดได้จาก link ด้านล่างได้เลยครับ ^^
    Screen Shot 2558-12-31 at 3.10.36 AM
  8. ลองมาดูวิธีการสร้าง Decision Tree ด้วย Information Gain กันอีกครั้งนะครับ ท่านใดสนใจดูได้จาก link ด้านล่างได้เลยครับ ^^

    Note: เนื่องในโอกาสวันพ่อแห่งชาติ 5 ธันวาคม 2558 ดาค้า คิวบ์ขอมอบ E-book เรื่อง An Introduction to Data Mining Techniques (ฉบับภาษาไทย) (จำนวน 300 เล่ม) ซึ่งสามารถเปิดอ่านได้ใน Ookbee ท่านใดสนใจดูรายละเอียดการขอ Promotion Code ได้จาก http://dataminingtrend.com/2014/free-data-mining-ebook/ ครับ
    Screen Shot 2558-12-31 at 3.12.46 AM
  9. [repost]
    เอกสารการใช้งาน R ฉบับภาษาไทยของ รองศาสตราจารย์ ดร.วิโรจน์ อรุณมานะกุล ท่านใดสนใจอ่านได้จาก link ได้เลยครับ ^^

    Note: เพราะเราเชื่อว่าการเรียนรู้เริ่มต้นจากการอ่านและการแบ่งปันครับ
    Screen Shot 2558-12-31 at 3.14.23 AM
  10. ดาวน์โหลดฟรีหนังสือเรื่อง Understanding Machine Learning: From Theory to Algorithms ท่านใดสนใจดาวน์โหลดได้จาก http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/copy.html ได้เลยครับ
    Screen Shot 2558-12-31 at 3.15.18 AM

นอกจากทั้ง 10 อันดับที่ได้สรุปมาแล้ว Page ดาต้า คิวบ์ยังมีเนื้อหาดีๆ ที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science อีกมากครับ ท่านใดสนใจดูรายละเอียดเพิ่มได้ที่ https://www.facebook.com/datacube.th นะครับ 🙂

การจัดการข้อมูลด้วย RapidMiner Studio 6

[เอกสารนี้เป็นบทที่ 2 ของหนังสือ Introduction to Bussiness Analytics with RapidMiner Studio 6 ซึ่งลดราคาพิเศษครับ ซื้อพร้อมหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย)​ ราคารวม 500 บาทครับ ดูรายละเอียดได้ที่นี่ครับ]

 

ตัววัดประสิทธิภาพของโมเดล Classification

ในการสร้างโมเดลเพื่อจำแนกประเภทข้อมูล (classification) สามารถแบ่งข้อมูลเพื่อทำการทดสอบได้ 3 แบบใหญ่ ดังที่ได้อธิบายไว้ในหัวข้อ “การแบ่งข้อมูลเพื่อนำทดสอบประสิทธิภาพของโมเดล” สำหรับบทความนี้จะแสดงการวัดประสิทธิภาพของโมเดลด้วยตัววัด (metric) ต่างๆ ได้แก่

  • Confusion Matrix
  • Precision
  • Recall
  • F-measure
  • Accuracy
  • ROC Graph
  • AUC (Area Under ROC Curve)

ขั้นตอนการคำนวณต่างๆ สามารถดูได้จาก slide ด้านล่างนี้ครับ