แจกหนังสือ Introduction to Business Analytics with RapidMiner ฟรีแบบ PDF

เนื่องในวันแม่แห่งชาติปี 2560 ดาต้า คิวบ์ขอแจกหนังสือ Introduction to Business Analytics with RapidMiner ฟรีแบบ PDF

Screen Shot 2560-08-11 at 10.29.14 PM

ท่านใดสนใจรบกวนทำตามขั้นตอนนี้ครับ

  1. เพิ่มดาต้า คิวบ์เป็นเพื่อนใน LINE โดยค้นหาคำว่า @datacube
  2. หลังจากนั้นในช่อง chat ให้พิมพ์คำว่า free ebook แล

สไลด์การบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics

เมื่อวันที่ 8 มีนาคม 2560 ดาต้า คิวบ์ได้รับโอกาสไปบรรยายเรื่อง Introduction to Data Mining and Big Data Analytics ณ คณะวิทยาศาสตร์และวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตเฉลิมพระเกียรติ จังหวัดสกลนคร

ท่านใดสนใจสไลด์การบรรยายดูได้จากรูปด้านล่างนี้ได้เลยครับ

10 เรื่องที่มีจำนวนผู้ชม (Reach), Like และ Share มากที่สุดในปี 2014 จาก Facebook ของดาต้า คิวบ์

ช่วงนี้ก็ใกล้จะปีใหม่ 2015 แล้วครับ เห็นหลายๆ เว็บได้ทำการสรุปเรื่องต่างๆ ในปี 2014 ทางดาต้า คิวบ์เลยขอสรุปตัวเลขจำนวน post ของเราที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science โดยมีค่าสรุปดังนี้

  • post ข้อความเป็นจำนวน 391 ข้อความ
  • post ที่จำนวนผู้ชมเห็น (reach) มากกว่า 1,000 คนจำนวน 49 ข้อความ

หลังจากการพิจารณาจำนวน post ทั้งหมดแล้ว เรานำจำนวนที่ผู้ชมเห็น จำนวนการ Like และจำนวนการ Share  มาคำนวณโดยการทำ normalization เพื่อให้ได้คะแนนรวมออกมาและสรุป post ที่มีค่าคะแนนมากที่สุด 10 post ได้ออกมาเป็นดังนี้

  1. ซอฟต์แวร์ PSPP ซึ่งเป็นซอฟต์แวร์ open source ที่สามารถใช้แทนซอฟต์แวร์ SPSS ได้ครับ สามารถดูรายละเอียดเพิ่มเติมของซอฟต์แวร์นี้จาก http://www.gnu.org/software/pspp/
    rank1
  2. ดาวน์โหลดฟรีหนังสือ The Data Analytics Handbook ซึ่งมี 3 เล่ม สามารถดูรายละเอียดเพิ่มเติมได้จาก https://www.teamleada.com/handbook
    rank2
  3. หนังสือ An Introduction to Data Mining ซึ่งเป็นหนังสือที่แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining สามารถอ่านผ่านทางหน้าเว็บ http://www.saedsayad.com/ ได้เลยครับ
    rank3
  4. หนังสือ Social Media Mining ซึ่งสามารถดาวน์โหลดได้ฟรี ดูรายละเอียเพิ่มเติมได้จาก http://dataminingtrend.com/2014/social-media-mining-an-introduction-2/
    rank4
  5. รูปหน้าปกหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย) มีคนกด Like มากที่สุดในหน้า Page ของดาต้า คิวบ์ครับ ดูรายละเอียดเพิ่มเติมได้จาก https://www.facebook.com/datacube.th
    rank5
  6. VDO clip ชุด Machine Learning Summer School 2014 ซึ่งมีจำนวน 47 ตอนก็ได้รับความนิยมเช่นกัน สามารถดู clip เหล่านี้ได้จาก https://www.youtube.com/playlist?list=PLZSO_6-bSqHQCIYxE3ycGLXHMjK3XV7Iz
    rank6
  7. ดาต้า คิวบ์ได้แจกหนังสือเกี่ยวกับการใช้งาน Weka Explorer ฟรี และมีผู้สนใจดาวน์โหลดไปแล้วเป็นจำนวนมากกว่า 600 คนแล้วครับ  ท่านใดสนใจดาวน์โหลดหนังสือเล่มนี้ โหลดฟรีได้ที่ http://dataminingtrend.com/2014/free-weka-book/
    rank7
  8. ในช่วงปี 2014 ที่ผ่านมา Big Data ได้รับความสนใจเป็นอย่างมากในประเทศไทยเรา ลองมาดู Trend ของ Big Data ในปี 2015 กันครับ ดูรายละเอียดเพิ่มได้จาก http://channels.theinnovationenterprise.com/articles/big-data-top-trends-in-2015
    rank8
  9. หนังสือ Predictive Analysis for Dummies เป็นอีกเล่มที่ดาวน์โหลดได้ฟรี ดูรายละเอียดเพิ่มเติมจาก http://dataminingtrend.com/2014/free-predictive-analytics-for-dum/
    rank9
  10. ลำดับสุดท้ายเป็นเรื่องของการทำ Text mining บน Google Sheet ได้อย่างง่ายๆ ท่านในดสนใจดูรายละเอียดเพิ่มเดิมได้ที่ http://blog.aylien.com/post/97133486053/introducing-text-analysis-for-google-sheets
    rank10

นอกจากทั้ง 10 อันดับที่ได้สรุปมาแล้ว Page ดาต้า คิวบ์ยังมีเนื้อหาดีๆ ที่เกี่ยวข้องกับ Data Mining, Big Data และ Data Science อีกมากครับ ท่านใดสนใจดูรายละเอียดเพิ่มได้ที่ https://www.facebook.com/datacube.th นะครับ 🙂

แจกฟรี The Data Analytics Handbook

นักศึกษาจากมหาวิทยาลัย Berkeley ทำการสัมภาษณ์ data scientist จากบริษัทชั้นนำต่างๆ เช่น Facebook, LinkedIn, Yelp โดยแบ่งเป็น 2 เล่ม คือ

  • The Data Analytics Handbook (Data Analysts + Data Scientists)
  • The Data Analytics Handbook (CEO + Managers)

สามารถดาวน์โหลดได้ฟรีจาก http://www.analyticshandbook.com

nz6w74rvoldjjkhenwto

โมเดล Naive Bayes และการแปลความหมาย

หลังจากบทความที่แล้วผมได้อธิบายการสร้างโมเดล Decision Tree ไปแล้ว ในวันนี้ขออธิบายวิธีการทำ classification อีกเทคนิคหนึ่งที่ได้รับความนิยมก็คือวิธี Naive Bayes หลักการของวิธีการนี้จะใช้การคำนวณความน่าจะเป็น ก่อนอื่นขอทบทวนความน่าจะเป็นที่เรียกว่า conditional proabability เสียก่อน ดังแสดงในสมการด้านล่าง

Screen Shot 2557-03-18 at 9.21.18 AM

  • P(A|B) คือ ค่า conditional probability หรือค่าความน่าจะเป็นที่เกิดเหตุการณ์ B ขึ้นก่อนและจะมีเหตุการณ์ A ตามมา
  • P(AB) คือ ค่า joint probability หรือค่าความน่าจะเป็นที่เหตุการณ์ A และเหตุการณ์ B เกิดขึ้นร่วมกัน
  • P(B) คือ ค่าความน่าจะเป็นที่เหตุการณ์ B เกิดขึ้น

ในลักษณะเดียวกันเราจะเขียน P(B|A) หรือค่าความน่าจะเป็นที่เหตุการณ์ A เกิดขึ้นก่อนและเหตุการณ์ B เกิดขึ้นตามมาทีหลังได้เป็น

Screen Shot 2557-03-18 at 9.25.42 AM

Continue reading

ขั้นตอนการสร้างโมเดล Decision Tree

[บทความนี้เป็นเนื้อหาบางส่วนจากหนังสือ An Introduction to Data Mining Techniques (ฉบับภาษาไทย]
เทคนิค Decision Tree เป็นเทคนิคหนึ่งที่ได้รับความนิยมในการนำมาประยุกต์ใชัในงานด้าน data mining วันนี้ผมจะแนะนำการสร้างโมเดล decision tree แบบง่ายๆ ก่อนอื่นเราจะใช้ข้อมูลในตารางที่ 1 ซึ่งเป็นข้อมูลที่เก็บสภาพภูมิอากาศ 14 วันย้อนหลังเพื่อดูว่าจะมีการจัดแข่งขันกีฬาหรือไม่

ตารางที่ 1 แสดงข้อมูล weather

Nooutlooktemperaturehumiditywindyplay
1sunnyhothighFALSEno
2sunnyhothighTRUEno
3overcasthothighFALSEyes
4rainymildhighFALSEyes
5rainycoolnormalFALSEyes
6rainycoolnormalTRUEno
7overcastcoolnormalTRUEyes
8sunnymildhighFALSEno
9sunnymildnormalFALSEyes
10rainymildnormalFALSEyes
11sunnymildnormalTRUEyes
12overcastmildhighTRUEyes
13overcasthotnormalFALSEyes
14rainymildhighTRUEno

จากข้อมูลในตารางที่ 1 ประกอบด้วย 5 แอตทริบิวต์ คือ

  • outlook แสดงสภาพภูมิอากาศ ประกอบด้วย 3 ค่า คือ sunny, overcast, rainny
  • temperature แสดงอุณหภูมิ ประกอบด้วย 3 ค่า คือ hot, mild, cool
  • humidity แสดงค่าความชื้นในอากาศ ประกอบด้วย 2 ค่า คือ high, normal
  • windy แสดงว่าเป็นวันที่ลมแรงหรือไม่ ประกอบด้วย 2 ค่า คือ TRUE, FALSE
  • play แสดงการจัดแข่งขันกีฬา ซึ่งเป็นคลาส ประกอบด้วย 2 ค่า คือ yes, no

การสร้างโมเดล decision tree จะทำการคัดเลือกแอตทริบิวต์ที่มีความสัมพันธ์กับคลาสมากที่สุดขึ้นมาเป็นโหนดบนสุดของ tree (root node) หลังจากนั้นก็จะหาแอตทริบิวต์ถัดไปเรื่อยๆ ในการหาความสัมพันธ์ของแอตทริบิวต์นี้จะใช้ตัววัด ที่เรียกว่า Information Gain (IG) ค่านี้คำนวณได้จากสมการดังนี้

IG (parent, child) =  entropy(parent) – [p(c1) × entropy(c1) + p(c2) × entropy(c2) + …]

โดยที่ entropy(c1) = -p(c1) log p(c1) และ p(c1) คือ ค่าความน่าจะเป็นของ c1

ต่อไปเราจะลองคำนวณค่าแต่ละแอตทริบิวต์เทียบกับคลาสเพื่อหาแอตทริบิวต์ที่มีค่า IG มากที่สุดมาเป็น root ของ decision tree ดังนี้ครับ

1. คำนวณค่า IG ของแอตทริบิวต์ outlook เพื่อให้ดูง่ายขึ้นผมจะแสดงให้เป็นภาพดังในรูปที่ 1

Screen Shot 2557-03-17 at 7.10.21 AM

รูปที่ 1 แสดงค่าความน่าจะเป็นเมื่อใช้แอตทริบิวต์ outlook

จากรูปที่ 1 สามารถคำนวณค่า IG ได้ดังนี้
entropy (parent) = -p() × logp() – p() × logp()
= -[0.64 × log2(0.64) + 0.36 × log2(0.36)]
= -[0.64 × -0.64 + 0.36 × -1.47]
= 0.94
Continue reading

หลักสูตร Data Science จากมหาวิทยาลัย Harvard

สำหรับท่านที่สนใจหลักสูตร Data Science ผมขอแนะนำหลักสูตรนี้ครับ เป็นหลักสูตรที่เปิดสอนในมหาวิทยาลัย Harvard ซึ่งได้ผ่านไปแล้ว แต่เราสามารถดู VDO การสอนย้อนหลังได้จากเว็บ http://cm.dce.harvard.edu/2014/01/14328/publicationListing.shtml โดยมีทั้งหมด 22 vdo ดังนี้ครับ

  1. Introduction to Data Science
  2. Process, Data, and Visual Attributes
  3. Statisical Graphs
  4. Data Munging
  5. Statistical Models
  6. Bias and Sampling
  7. Regression
  8. High-dimensional data
  9. Classification and Clustering
  10. How to Think Like a Bayesian
  11. Bias, Variance and Cross Validation
  12. Bayesian computation continued, Monte Carlo methods
  13. Basic machine learning
  14. Amazon EC2, AWS Datastore, MapReduce, MRJob
  15. Guest Lecture: Katie Harris, Fathom
  16. Trees, Networks and Databases
  17. Guest Lecture: Margo Seltzer, Databases
  18. Network Visualization. Node-Link Graphs. Matrix Views. Gephi
  19. Network Models II
  20. Visual Story Telling. Messaging. Effective Presentations.
  21. Wrap-up & Outlook
  22. Guest Lecture: Yair Livne, Data Science at Quora