แจกหนังสือ Introduction to Business Analytics with RapidMiner ฟรีแบบ PDF

เนื่องในวันแม่แห่งชาติปี 2560 ดาต้า คิวบ์ขอแจกหนังสือ Introduction to Business Analytics with RapidMiner ฟรีแบบ PDF

Screen Shot 2560-08-11 at 10.29.14 PM

ท่านใดสนใจรบกวนทำตามขั้นตอนนี้ครับ

  1. เพิ่มดาต้า คิวบ์เป็นเพื่อนใน LINE โดยค้นหาคำว่า @datacube
  2. หลังจากนั้นในช่อง chat ให้พิมพ์คำว่า free ebook แล

สไลด์บางส่วนจากการอบรม Practical Data Mining with RapidMiner Studio 7

ตัวอย่างสไลด์การอบรม Practical Data Mining with RapidMiner Studio 7 รุ่นที่ 17 ครับ ท่านใดสนใจดูรายละเอียดการอบรมรุ่นถัดไปได้ที่ http://dataminingtrend.com/2014/training/rapidminer-training-18/

สไลด์การบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics

เมื่อวันที่ 8 มีนาคม 2560 ดาต้า คิวบ์ได้รับโอกาสไปบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics ณ คณะวิทยาศาสตร์และวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตเฉลิมพระเกียรติ จังหวัดสกลนคร

ท่านใดสนใจสไลด์การบรรยายดูได้จากรูปด้านล่างนี้ได้เลยครับ

การใช้งาน Workflow จาก myExperiment

ข้อดีอย่างหนึ่งของ RapidMiner Studio คือการสร้าง process ในการทำงานที่ยืดหยุ่นและแก้ไขได้ในภายหลัง หรือส่งไปให้กับเพื่อนร่วมงานเพื่อประหยัดเวลาในการพัฒนา หลายท่านอาจจะรู้จักกับเว็บไซต์ myExperiment ที่ได้ทำการรวบรวม process ต่างๆ ไว้รวมทั้ง process ของ RapidMiner Studio เองด้วย แต่ทว่าการดาวน์โหลดไฟล์จากเว็บไซต์มาใช้ก็ไม่สามารถเปิดได้โดยตรงครับ ต้องมีการติดตั้ง Extension ของ RapidMiner Studio ก่อนโดยมีขั้นตอนดังนี้ครับ (ในตัวอย่างนี้ใชเ

1. เปิดซอฟต์แวร์ RapidMiner Studio 6 และไปที่เมนู Help > Marketplace (Updates and Extensions…) จะปรากฏหน้าต่างดังรูปที่ 1 และในช่องค้นหาให้ใส่คำว่า myExperiment ซอฟต์แวร์จะแสดง Community Extension ขึ้นมา

Screen Shot 2558-07-21 at 1.41.39 PM

 

รูปที่ 1 แสดงหน้าต่าง RapidMiner Marketplace

2. double click ที่หัวข้อ Community Extension 6.4.0 จะเห็นว่าปุ่ม Select for installation จะถูกเลือก คลิกที่ปุ่ม Install 1 packages เพื่อเข้าสู่ขั้นตอนถัดไป

3. หน้าต่างเกี่ยวกับ Confirm Licenses จะปรากฏขึ้นมาดังในรูปที่ 2 คลิกที่เมนู I accept the terms of all license agreements และคลิกที่ปุ่ม Install 1 Packages

Screen Shot 2558-07-21 at 1.41.56 PM

รูปที่ 2 แสดงหน้าต่าง Confirm Licenses

4. หลังจากนั้นซอฟต์แวร์จะทำการดาวน์โหลด Extension เพิ่มเติมมาติดตั้งให้ดังในรูปที่ 3 ครับ

Screen Shot 2558-07-21 at 1.41.59 PM

 

รูปที่ 3 แสดงหน้าต่าง Progress

5. หลังจากติดตั้งเรียบร้อยแล้ว ซอฟต์แวร์จะให้ restart RapidMiner Studio 6 เพื่อให้ Community Extension ทำงาน ดังแสดงในรูปที่ 4

Screen Shot 2558-07-21 at 1.42.04 PM

รูปที่ 4 แสดงการติดตั้งเรียบร้อยแล้วจำเป็นจะต้อง restart RapidMiner Studio เพื่อให้ Extension ตัวใหม่ทำงาน

6. เมื่อซอฟต์แวร์ได้เปิดขึ้นมาจะมี icon ของ Community Extension แสดงอยู่ด้านบนขวาดังในรูปที่ 5

Screen Shot 2558-07-21 at 2.04.03 PM

รูปที่ 5 เปิดใช้งาน RapidMiner Studio 6 จะเห็นว่ามี icon ของ Community Extension ปรากฏอยู่ด้านขวาบน

7. หลังจากนั้นเราจะต้องเปิดหน้าต่างของ myExperiment ขึ้นมาก่อนครับ ถึงจะเลือกและค้นหา process ต่างๆ ได้ โดยการเลือกเมนู View > Show View > MyExperiment Browser หน้าต่างของ MyExperiment Browser จะแสดงขึ้นมาด้านซ้ายล่างดังรูปที่ 6

Screen Shot 2558-07-21 at 2.08.01 PM

รูปที่ 6 หน้าต่าง MyExperiment Browser จะปรากฏขึ้นมาด้านซ้ายล่าง

8. ในส่วนของ MyExperiment Browser คลิกที่ไอคอน Untitled เพื่อขยายหน้าต่างนี้ออกมาให้เต็มหน้าจอ ดังแสดงในรูปที่ 7

Screen Shot 2558-07-21 at 1.43.19 PM

รูปที่ 7 แสดงหน้าต่าง MyExperiment Browser แบบขยายเต็มหน้าจอ

9. จากรูปที่ 7 สามารถเลือก process ที่มีอยู่ใน list หรือค้นหาจากช่อง Search ได้ ในตัวอย่างนี้ผมเลือก process ที่ชื่อว่า Looping over Examples for doing de-aggregation และคลิกที่ปุ่ม Untitled2 เพื่อดาวน์โหลด process จากอินเตอร์เน็ตครับ ซึ่งจะแสดงในส่วน Process ของ RapidMiner Studio 6 ดังแสดงในรูปที่ 8 และสามารถกดปุ่ม Untitled3 เพื่อให้ process ทำงานได้ครับ

Screen Shot 2558-07-21 at 1.43.36 PM

รูปที่ 8 แสดง process ที่ดาวน์โหลดมาจากเว็บไซต์ myExperiment

หมายเหตุ ท่านใดสนใจดูรายละเอียดการใช้งานซอฟต์แวร์ RapidMiner Studio 6 ดูได้จาก คู่มือการใช้งาน RapidMiner Studio 6 ครับ

การใช้งาน R ใน RapidMiner Studio 6.4

ก่อนหน้านี้ผมได้แสดงวิธีการติดตั้ง R เพื่อใช้งานใน RapidMiner Studio เวอร์ชันที่ต่ำกว่า 6.4 ไปแล้วตาม link นี้ครับ ซึ่งค่อนข้างซับซ้อนพอควรครับ เมื่อไม่นานมานี้ (04/05/2015) RapidMiner ได้ออกเวอร์ชันใหม่คือ 6.4 ซึ่งมี feature เพิ่มในการเพิ่ม Note ใน  Process ได้และมี extension ที่ทำให้ RapidMiner Studio 6 สามารถใช้งาน R และ Python script ได้ง่ายขึ้น ใน post นี้ผมจะแสดงวิธีการติดตั้ง R Extension และการตั้งค่าต่างๆ เพื่อให้ใช้งาน R ใน RapidMiner Studio 6.4 ได้ครับ ขั้นตอนต่างๆ มีดังนี้

1. Update RapidMiner Studio 6 ให้เป็นเวอร์ชัน 6.4 ก่อนครับ โดยการคลิกที่เมนู​ Help > Marketplace (Update and Extensions…) จะปรากฏหน้าต่างดังในรูป

Capture1

  • ในช่อง Search พิมพ์คำว่า R และกดปุ่ม Search
  • เลือก Extension ที่ชื่อว่า R Scripting 6.4.0
  • คลิกที่ปุ่ม Select for Installation
  • คลิกที่ปุ่ม Install 1 packages

2. หลังจากนั้นหน้าต่าง Confirm Licenses จะแสดงขึ้นมาในรูป

Capture2

  • คลิกที่เมนู I accept the terms of all license agreements เพื่อ accept license agreement
  • คลิกที่ปุ่ม Install 1 packages

3. ซอฟต์แวร์จะดาวน์โหลด Extension มาจากอินเตอร์เน็ตและเมื่อดาวน์โหลดเสร็จเรียบร้อยแล้วจะปรากฏหน้าต่างดังในรูปเพื่อให้ทำการ restart RapidMiner Studio 6.4 อีกครั้ง ให้ทำการคลิกที่ปุ่ม Yes

Capture3

4. RapidMiner Studio 6.4 จะ restart ขึ้นมาใหม่และจะมี icon ของ R Scripting แสดงขึ้นมาด้านขวาบนดังในรูป

Capture4

Continue reading

10 เรื่องที่มีจำนวนผู้ชม (Reach), Like และ Share มากที่สุดในปี 2014 จาก Facebook ของดาต้า คิวบ์

ช่วงนี้ก็ใกล้จะปีใหม่ 2015 แล้วครับ เห็นหลายๆ เว็บได้ทำการสรุปเรื่องต่างๆ ในปี 2014 ทางดาต้า คิวบ์เลยขอสรุปตัวเลขจำนวน post ของเราที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science โดยมีค่าสรุปดังนี้

  • post ข้อความเป็นจำนวน 391 ข้อความ
  • post ที่จำนวนผู้ชมเห็น (reach) มากกว่า 1,000 คนจำนวน 49 ข้อความ

หลังจากการพิจารณาจำนวน post ทั้งหมดแล้ว เรานำจำนวนที่ผู้ชมเห็น จำนวนการ Like และจำนวนการ Share  มาคำนวณโดยการทำ normalization เพื่อให้ได้คะแนนรวมออกมาและสรุป post ที่มีค่าคะแนนมากที่สุด 10 post ได้ออกมาเป็นดังนี้

  1. ซอฟต์แวร์ PSPP ซึ่งเป็นซอฟต์แวร์ open source ที่สามารถใช้แทนซอฟต์แวร์ SPSS ได้ครับ สามารถดูรายละเอียดเพิ่มเติมของซอฟต์แวร์นี้จาก http://www.gnu.org/software/pspp/
    rank1
  2. ดาวน์โหลดฟรีหนังสือ The Data Analytics Handbook ซึ่งมี 3 เล่ม สามารถดูรายละเอียดเพิ่มเติมได้จาก https://www.teamleada.com/handbook
    rank2
  3. หนังสือ An Introduction to Data Mining ซึ่งเป็นหนังสือที่แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining สามารถอ่านผ่านทางหน้าเว็บ http://www.saedsayad.com/ ได้เลยครับ
    rank3
  4. หนังสือ Social Media Mining ซึ่งสามารถดาวน์โหลดได้ฟรี ดูรายละเอียเพิ่มเติมได้จาก http://dataminingtrend.com/2014/social-media-mining-an-introduction-2/
    rank4
  5. รูปหน้าปกหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย) มีคนกด Like มากที่สุดในหน้า Page ของดาต้า คิวบ์ครับ ดูรายละเอียดเพิ่มเติมได้จาก https://www.facebook.com/datacube.th
    rank5
  6. VDO clip ชุด Machine Learning Summer School 2014 ซึ่งมีจำนวน 47 ตอนก็ได้รับความนิยมเช่นกัน สามารถดู clip เหล่านี้ได้จาก https://www.youtube.com/playlist?list=PLZSO_6-bSqHQCIYxE3ycGLXHMjK3XV7Iz
    rank6
  7. ดาต้า คิวบ์ได้แจกหนังสือเกี่ยวกับการใช้งาน Weka Explorer ฟรี และมีผู้สนใจดาวน์โหลดไปแล้วเป็นจำนวนมากกว่า 600 คนแล้วครับ  ท่านใดสนใจดาวน์โหลดหนังสือเล่มนี้ โหลดฟรีได้ที่ http://dataminingtrend.com/2014/free-weka-book/
    rank7
  8. ในช่วงปี 2014 ที่ผ่านมา Big Data ได้รับความสนใจเป็นอย่างมากในประเทศไทยเรา ลองมาดู Trend ของ Big Data ในปี 2015 กันครับ ดูรายละเอียดเพิ่มได้จาก http://channels.theinnovationenterprise.com/articles/big-data-top-trends-in-2015
    rank8
  9. หนังสือ Predictive Analysis for Dummies เป็นอีกเล่มที่ดาวน์โหลดได้ฟรี ดูรายละเอียดเพิ่มเติมจาก http://dataminingtrend.com/2014/free-predictive-analytics-for-dum/
    rank9
  10. ลำดับสุดท้ายเป็นเรื่องของการทำ Text mining บน Google Sheet ได้อย่างง่ายๆ ท่านในดสนใจดูรายละเอียดเพิ่มเดิมได้ที่ http://blog.aylien.com/post/97133486053/introducing-text-analysis-for-google-sheets
    rank10

นอกจากทั้ง 10 อันดับที่ได้สรุปมาแล้ว Page ดาต้า คิวบ์ยังมีเนื้อหาดีๆ ที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science อีกมากครับ ท่านใดสนใจดูรายละเอียดเพิ่มได้ที่ https://www.facebook.com/datacube.th นะครับ 🙂

Data Mining for Statisticians (vdo)

ขอแนะนำวิดีโอเรื่อง Data Mining for Statisticians แบ่งเป็นตอนสั้นๆ ตอนละประมาณ 20 นาทีซึ่งประกอบด้วย 6 ตอนดังนี้

 

โมเดล Naive Bayes และการแปลความหมาย

หลังจากบทความที่แล้วผมได้อธิบายการสร้างโมเดล Decision Tree ไปแล้ว ในวันนี้ขออธิบายวิธีการทำ classification อีกเทคนิคหนึ่งที่ได้รับความนิยมก็คือวิธี Naive Bayes หลักการของวิธีการนี้จะใช้การคำนวณความน่าจะเป็น ก่อนอื่นขอทบทวนความน่าจะเป็นที่เรียกว่า conditional proabability เสียก่อน ดังแสดงในสมการด้านล่าง

Screen Shot 2557-03-18 at 9.21.18 AM

  • P(A|B) คือ ค่า conditional probability หรือค่าความน่าจะเป็นที่เกิดเหตุการณ์ B ขึ้นก่อนและจะมีเหตุการณ์ A ตามมา
  • P(AB) คือ ค่า joint probability หรือค่าความน่าจะเป็นที่เหตุการณ์ A และเหตุการณ์ B เกิดขึ้นร่วมกัน
  • P(B) คือ ค่าความน่าจะเป็นที่เหตุการณ์ B เกิดขึ้น

ในลักษณะเดียวกันเราจะเขียน P(B|A) หรือค่าความน่าจะเป็นที่เหตุการณ์ A เกิดขึ้นก่อนและเหตุการณ์ B เกิดขึ้นตามมาทีหลังได้เป็น

Screen Shot 2557-03-18 at 9.25.42 AM

Continue reading

ขั้นตอนการสร้างโมเดล Decision Tree

[บทความนี้เป็นเนื้อหาบางส่วนจากหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย]
เทคนิค Decision Tree เป็นเทคนิคหนึ่งที่ได้รับความนิยมในการนำมาประยุกต์ใชัในงานด้าน data mining วันนี้ผมจะแนะนำการสร้างโมเดล decision tree แบบง่ายๆ ก่อนอื่นเราจะใช้ข้อมูลในตารางที่ 1 ซึ่งเป็นข้อมูลที่เก็บสภาพภูมิอากาศ 14 วันย้อนหลังเพื่อดูว่าจะมีการจัดแข่งขันกีฬาหรือไม่

ตารางที่ 1 แสดงข้อมูล weather

Nooutlooktemperaturehumiditywindyplay
1sunnyhothighFALSEno
2sunnyhothighTRUEno
3overcasthothighFALSEyes
4rainymildhighFALSEyes
5rainycoolnormalFALSEyes
6rainycoolnormalTRUEno
7overcastcoolnormalTRUEyes
8sunnymildhighFALSEno
9sunnymildnormalFALSEyes
10rainymildnormalFALSEyes
11sunnymildnormalTRUEyes
12overcastmildhighTRUEyes
13overcasthotnormalFALSEyes
14rainymildhighTRUEno

จากข้อมูลในตารางที่ 1 ประกอบด้วย 5 แอตทริบิวต์ คือ

  • outlook แสดงสภาพภูมิอากาศ ประกอบด้วย 3 ค่า คือ sunny, overcast, rainny
  • temperature แสดงอุณหภูมิ ประกอบด้วย 3 ค่า คือ hot, mild, cool
  • humidity แสดงค่าความชื้นในอากาศ ประกอบด้วย 2 ค่า คือ high, normal
  • windy แสดงว่าเป็นวันที่ลมแรงหรือไม่ ประกอบด้วย 2 ค่า คือ TRUE, FALSE
  • play แสดงการจัดแข่งขันกีฬา ซึ่งเป็นคลาส ประกอบด้วย 2 ค่า คือ yes, no

การสร้างโมเดล decision tree จะทำการคัดเลือกแอตทริบิวต์ที่มีความสัมพันธ์กับคลาสมากที่สุดขึ้นมาเป็นโหนดบนสุดของ tree (root node) หลังจากนั้นก็จะหาแอตทริบิวต์ถัดไปเรื่อยๆ ในการหาความสัมพันธ์ของแอตทริบิวต์นี้จะใช้ตัววัด ที่เรียกว่า Information Gain (IG) ค่านี้คำนวณได้จากสมการดังนี้

IG (parent, child) =  entropy(parent) – [p(c1) × entropy(c1) + p(c2) × entropy(c2) + …]

โดยที่ entropy(c1) = -p(c1) log p(c1) และ p(c1) คือ ค่าความน่าจะเป็นของ c1

ต่อไปเราจะลองคำนวณค่าแต่ละแอตทริบิวต์เทียบกับคลาสเพื่อหาแอตทริบิวต์ที่มีค่า IG มากที่สุดมาเป็น root ของ decision tree ดังนี้ครับ

1. คำนวณค่า IG ของแอตทริบิวต์ outlook เพื่อให้ดูง่ายขึ้นผมจะแสดงให้เป็นภาพดังในรูปที่ 1

Screen Shot 2557-03-17 at 7.10.21 AM

รูปที่ 1 แสดงค่าความน่าจะเป็นเมื่อใช้แอตทริบิวต์ outlook

จากรูปที่ 1 สามารถคำนวณค่า IG ได้ดังนี้
entropy (parent) = -p() × logp() – p() × logp()
= -[0.64 × log2(0.64) + 0.36 × log2(0.36)]
= -[0.64 × -0.64 + 0.36 × -1.47]
= 0.94
Continue reading

ดาวน์โหลดฟรี An Introduction to Statistical Learning with Applications in R

ISLR Coverผมเคยได้รับคำแนะนำให้อ่านหนังสือ The Elements of Statistical Learning ที่เขียนโดย Hastie, Tibshirani และ Friedman ซึ่งเป็นหนังสือในตำนานที่เยี่ยมยอดเล่มหนึ่งเลยทีเดียว แต่ว่าหนังสือเล่มนี้ก็อ่านค่อนข้างยากเพราะมีการใช้สมการทางคณิตศาสตร์ในการอธิบาย ถ้าใครเคยติดปัญหาเหมือนผมหรือติดใจหนังสือ ESL วันนี้ผมแนะนำหนังสือเรื่อง An Introduction to Statistical Learning with Applications in R ซึ่งเขียนโดยทีมเดิมแต่ปรับเนื้อหาให้อ่านได้ง่ายขึ้น มีคำอธิบายมากขึ้นและมีวิธีการใช้งานจริงด้วยภาษา R

 

หนังสือทั้งสองเล่มนี้สามารถดาวน์โหลดได้ฟรีตาม link ด้านล่างนี้ครับ

สำหรับท่านที่สนใจหนังสือทาง data mining เล่มอื่นๆ ลองดูที่ Our Experience ครับ ผม list หนังสือที่เคยอ่านและอยากแนะนำไว้แล้วครับ ^^