หนังสือ Introduction to Data Mining Techniques (ภาษาไทย)

IMG_20150524_095848

ย้อนหลังไปเมื่อ 12 ปีก่อน การวิเคราะห์ข้อมูลด้วยเทคนิค ดาต้า ไมน์นิง (data mining) ยังรู้จักกันในวงแคบส่วนใหญ่จะเป็นนักศึกษาปริญญาโทและเอกที่สนใจทำงานวิจัยทางด้านนี้ ผมเองเริ่มต้นรู้จักกับดาต้า ไมน์นิงเมื่อประมาณ 12 ปีก่อนเช่นกัน ในสมัยที่เป็นนักศึกษาปริญญาตรีตัวเล็กๆ ในห้องปฏิบัติการวิจัยการค้นหาความรู้จากฐานข้อมูลขนาดใหญ่ (Knowledge Discovery Laboratory) ในภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ มหาวิทยาลัยเกษตรศาสตร์ ในช่วงเวลาที่ผ่านมาผมได้เห็นการเปลี่ยนแปลงเกี่ยวกับความสนใจของผู้คนต่างๆ ในเรื่องดาต้า ไมน์นิงอย่างมากมาย ตั้งแต่ตอนแรกที่ความสนใจจะอยู่ในวงแคบดังที่ได้กล่าวมาแล้วจนมาถึงปัจจุบันที่มีผู้สนใจเพิ่มขึ้นเป็นวงกว้าง เช่น บริษัทเอกชนหรือธนาคารต่างๆ เริ่มให้ความสนใจนำการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิงไปใช้งานกันมากขึ้นหรือมหาวิทยาลัยบางแห่งเริ่มจัดให้การเรียนการสอนเกี่ยวกับเรื่องนี้ในระดับชั้นปริญญาตรี จากความนิยมที่เพิ่มขึ้นและการเก็บเกี่ยวประสบการณ์ต่างๆ ในการวิเคราะห์ข้อมูลทางด้านดาต้า ไมน์นิงทำให้ผมคิดอยากจะเขียนหนังสือสักเล่มที่เกี่ยวกับการแนะนำเทคนิคการวิเคราะห์ข้อมูลทางดาต้า ไมน์นิงเบื้องต้นสำหรับนักศึกษาและผู้สนใจขึ้นมาและนั่นเองคือที่มาของหนังสือเล่มนี้ที่ชื่อว่า An Introduction to Data Mining Techniques ซึ่งในหนังสือเล่มนี้ผมจะแสดงหลักการทำงานของวิธีการต่างๆ ทางด้านดาต้า ไมน์นิงไม่ว่าจะเป็น การหากฏความสัมพันธ์ (association rules discovery) การแบ่งกลุ่มข้อมูล (clustering) และ การจำแนกประเภทข้อมูล (classification) พร้อมทั้งตัวอย่างการทำงานของวิธีการเหล่านี้เพื่อให้ผู้อ่านเข้าใจได้ง่ายโดยที่ไม่ต้องมีความรู้พื้นฐานทางด้านคณิตศาสตร์ขั้นสูง

หนังสือเล่มนี้คงไม่สามารถเกิดขึ้นได้ถ้าผมไม่ได้เรียนรู้ Data Mining จาก

  • รศ.ดร. กฤษณะ ไวยมัย มหาวิทยาลัยเกษตรศาสตร์
  • ดร. สุภาวดี อิงศรีสว่าง ศูนย์พันธุวิศวกรรมและเทคโนโลยีชีวภาพ
  • ศ. ดร. ธนารักษ์ ธีระมั่นคง สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
  • ศ. ดร. นิค เซอร์โคน (Nick Cercone) มหาวิทยาลัย ยอร์ค (York University) ประเทศแคนาดา

ดูตัวอย่างหนังสือได้จากที่นี่ครับ หนังสือราคาเล่มละ 400 บาทรวมค่าจัดส่งแล้วครับ ^^

Continue reading

การติดตั้ง R Extension สำหรับ RapidMiner Studio 6 (บน Windows)

วันนี้ผมจะแนะนำวิธีการติดตั้ง Extension ของ RapidMiner Studio 6 ตัวหนึ่งที่ได้รับความนิยมเป็นอย่างมาก นั่นคือ R Extension แต่การติดตั้ง Extension ตัวนี้ค่อนข้างลำบากกว่าตัวอื่นๆ ของ RapidMiner Studio 6 (เช่น Text Mining Extension หรือ Image Mining Extension) ก่อนอื่นเรามารู้จักโปรแกรม R กันก่อนดีกว่าครับ ว่ามีหน้าตาเป็นแบบไหนและมีข้อดีข้อเสียยังไงบ้าง

โปรแกรม R สามารถดาวน์โหลดได้จาก http://www.r-project.org  หรือ http://mirrors.psu.ac.th/pub/cran/ และเลือกติดตั้งตามระบบปฏิบัติการ (OS) ของเราเอง โดยในบทความนี้ขอใช้ตัวอย่างเป็นระบบปฏิบัติการ Windows หลังจากติดตั้งเรียบร้อยแล้ว สามารถเรียกรันโปรแกรม R ได้และจะพบกับหน้าจอของโปรแกรม R เป็นดังรูปที่ 1

R software

รูปที่ 1 แสดงหน้าจอของโปรแกรม R

โปรแกรม R จะใช้การพิมพ์คำสั่งเพื่อเรียกทำงานคล้ายๆ กับโปรแกรม MATLAB หรือจะเรียกได้ว่า R ก็คือ MATLAB ที่เป็นแบบฟรีก็ได้ (คล้ายๆ กับ octave)

ดังนั้นโปรแกรม R นี้จึงเหมาะสำหรับคนที่ชอบในการเขียนโปรแกรมมากกว่าการใช้งานผ่านทาง GUI (แม้ว่า R จะมี GUI อย่าง Rattle แต่ก็สู้กระทั่งซอฟต์แวร์ Weka ไม่ได้เลยทีเดียว) ซึ่งการทำงานของโปรแกรมนี้ก็จะมองทุกอย่างเป็นลักษณะของ Matrix ตัวอย่างเช่นการอ่านไฟล์ต้องใช้คำสั่ง  x = read.csv(“C:\data\weather.csv”) หลังจากนั้นข้อมูลจะโหลดเข้ามาอยู่ใน Matrix ที่มีตัวแปรชื่อว่า x แต่ข้อดีของโปรแกรม R ก็คือมีผู้พัฒนา package ต่างๆ จากทั่วโลกและสามารถนำมาติดตั้งเพิ่มเติมได้ไม่ยาก

เพื่อให้การทำงานของ R ได้ง่ายขึ้นและเพิ่มประสิทธิภาพให้กับ RapidMiner Studio 6 จึงมีผู้พัฒนาส่วนเชื่อมต่อหรือ Extension ระหว่าง R และ RapdiMiner Studio 6 ขึ้นมา แต่ก่อนจะใช้งาน Extension นี้ได้จำเป็นจะต้องทำการ setup ค่าต่างๆ โดยแบ่งเป็น 3 ส่วนใหญ่ๆ คือ

  • การติดตั้ง package ในโปรแกรม R
  • การกำหนดตัวแปร environment variable ใน Windows
  • การเพิ่ม R extension ใน RapidMiner Studio 6

เรามาดูการตั้งค่าในแต่ละส่วนกันดีกว่าครับ

การติดตั้ง package ในโปรแกรม R

1. ติดตั้ง package ที่ชื่อว่า “rJava” ในโปรแกรม R เสียก่อนเพื่อให้ RapidMiner Studio 6 สามารถเชื่อมต่อกับ R ได้ โดยการพิมพ์คำสั่ง install.packages(“rJava”) ดังแสดงในรูปที่ 2

install rJava

รูปที่ 2 แสดงการติดตั้ง package “rJava”

2. หลังจากนั้นโปรแกรม R จะแสดงหน้าต่างขึ้นมาเพื่อให้เลือกว่าจะโหลดจากประเทศไหน ตอนนี้ผมเลือกประเทศไทย (Thailand) ครับ ดังรูปที่ 3

Capture2

รูปที่ 3 แสดงเว็บไซต์ในประเทศต่างๆ ที่เป็น mirror

3. หลังจากนั้นโปรแกรม R จะทำการติดตั้ง package rJava และเมื่อทำการติดตั้งเสร็จสิ้นจะเป็นดังในรูปที่ 4

Capture3

รูปที่ 4 แสดงการติดตั้ง package rJava ที่เสร็จเรียบร้อยแล้ว

4. ขั้นถัดมาเราจะต้องมาดูว่า package ของ R ที่เราติดตั้งเก็บไว้ที่ folder ไหน โดยใช้คำสั่ง  .libPaths() หลังจากนั้นชื่อของ folder ที่เก็บ package ต่างๆ จะปรากฏขึ้นมาดังในรูปที่ 5 โดยในบทความนี้ผมใช้โปรแกรม R เวอร์ชัน 3.1.1 ดังนั้นของท่านผู้อ่านอาจจะเป็น “C:/Program Files/R/R-x.x.x/library” ซึ่ง R-x.x.x คือ R เวอร์ชันที่ท่านผู้อ่านติดตั้งไว้ครับ

Capture4รูปที่ 5 แสดงชื่อ folder ที่จัดเก็บ package ต่างๆ ของโปรแกรม R ไว้

การกำหนดตัวแปร environment variable ใน Windows

1. หลังจากติดตั้ง package ในโปรแกรม R เรียบร้อยแล้ว ขั้นตอนถัดมาต้องกำหนดตัวแปรให้กับ Windows โดยเริ่มจากการคลิกขวาที่ Computer และเลือกเมนู Properties ดังในรูปที่ 6

Capture5

รูปที่ 6 คลิกขวาที่ Computer > Properties

2. หลังจากนั้นคลิกที่เมนู Advanced system settings ดังแสดงในรูปที่ 7

Capture6รูปที่ 7 เลือกเมนู Advanced system settings

3. ถัดจากนั้นเลือกเมนู Environment Variables… ดังแสดงในรูปที่ 8

Capture7

รูปที่ 8 คลิกที่ปุ่ม Environment Variables…

4. ขั้นตอนถัดมาให้เพิ่มตัวแปรต่างโดยการกดปุ่ม New ดังในรูปที่ 9

Capture8

รูปที่ 9 แสดงหน้าต่าง Environment variable และสามารถเพิ่มตัวแปรได้โดยการกดที่ปุ่ม New

5. เพิ่มตัวแปร R_HOME ใน Variable name: และโฟลเดอร์ของ R ใน Variable value: (โดยในบทความนี้ผมใช้โปรแกรม R เวอร์ชัน 3.1.1 ดังนั้นของท่านผู้อ่านอาจจะเป็น “C:\Program Files\R\R-x.x.x” ซึ่ง R-x.x.x คือ R เวอร์ชันที่ท่านผู้อ่านติดตั้งไว้ครับ)

Capture9
รูปที่ 10 แสดงหน้าจอกำหนดตัวแปร R_HOME

6. เพิ่ม folder ของโปรแกรม R เข้าไปต่อท้ายตัวแปร Path เช่น ;C:\Program Files\R\R-3.1.1\bin\x64 สำหรับโปรแกรม R เวอร์ชัน 3.1.1. แบบ 64 bit (ของท่านผู้อ่านอาจจะเป็น ;C:\Program Files\R\R-x.x.x\bin\x64 ซึ่ง R-x.x.x คือ R เวอร์ชันที่ท่านผู้อ่านติดตั้งไว้ครับ)

Capture10

รูปที่ 11 แสดงหน้าจอเพิ่มตัวแปร Path

7.  เพิ่มตัวแปร JAVA_HOME ใน Variable name: และโฟลเดอร์ของ Java ใน Variable value:

Capture11

รูปที่ 12 แสดงหน้าจอกำหนดตัวแปร JAVA_HOME

การเพิ่ม R extension ใน RapidMiner Studio 6

1. เปิดโปรแกรม RapidMiner Studio 6 และเลือกเมนู Help > Updates and Extensions (Marketplace)..

Capture12

รูปที่ 13 เลือกเมนูเพื่อทำการติดตั้ง Extension เพิ่มเติม

2. หลังจากนั้นจะเข้าสู่หน้าจอ RapidMiner Marketplace 

  • คลิกเลือกที่แทบ Top Downloads แล้วเลือก R Extension 5.3.0 
  • คลิกที่เมนู Select for Installation เพื่อเลือก Extension ตัวนี้
  • คลิกที่ปุ่ม Install 1 packages

Capture13

รูปที่ 14 หน้าจอสำหรับเลือก Extension ต่างๆ ของ RapidMiner Studio 6

3.  ถัดมาจะแสดง License ของ R Extensions

  • คลิกที่ I accept the terms of all license agreements
  • กดที่ปุ่ม Install 1 packages

Capture14

รูปที่ 15 แสดงหน้าจอ License ของ R Extension

4.  หลังจากนั้น RapidMiner Studio 6 จะทำการดาวน์โหลด R Extension และทำการติดตั้งCapture15

รูปที่ 16 แสดงหน้าจอการดาวน์โหลดและติดตั้ง R Extension

5. หลังจากทำการติดตั้ง R Extension แล้ว RapidMiner Studio 6 จำเป็นจะต้อง restart โปรแกรมอีกครั้งหนึ่ง ในขั้นตอนนี้ให้คลิกที่ปุ่ม Yes

Capture16

รูปที่ 17 แสดงหน้าจอแจ้งว่าจะต้องทำการ restart โปรแกรม

6. เมื่อโปรแกรม RapidMiner Studio 6 เริ่มทำงานอีกครั้งเราจะเห็นไอคอนของ R Extension แสดงในด้านขวาบนดังในรูปที่ 18

 Capture17

รูปที่ 18 หน้าจอเริ่มต้นการทำงานของโปรแกรม RapidMiner Studio 6

7. ขั้นตอนสุดท้ายของการติดตั้ง R Extensions คือ การระบุไฟล์ JRI โดยการเลือกไปยัง folder ที่เก็บไฟล์ jri.dll ไว้ เช่น C:\Program Files\R\R-3.1.1\library\rJava\jri\x64\jri.dll เป็นต้น หลังจากนั้นต้องทำการ restart โปรแกรม R Extension อีกครั้งครับ

8. เมื่อเราเข้าไปใช้งาน RapidMiner Studio 6 จะเห็นว่าด้านขวาบนมีหน้าต่าง R Perspective เพิ่มขึ้นมาดังในรูปที่ 19 และเมื่อคลิกที่ R Perspective จะแสดงดังในรูปที่ 20 ซึ่งสามารถใส่คำสั่งของ R ลงไปได้ครับ เช่น ls() เป็นการแสดง object ที่อยู่ใน R ครับ

Capture18

รูปที่ 19 แสดงหน้าจอ  Home Screen จะเห็นว่ามีเมนูสำหรับเปิดใช้งาน R ในด้านขวาบน

Capture19

รูปที่ 20 แสดงหน้าจอ R Perspective และการใช้คำสั่ง ls()

9. เรามาลองใช้โอเปอเรเตอร์ของ R ใน RapidMiner Studio 6 กันดูครับ ผมเลือกโอเปอเรเตอร์ Generate Vector เพื่อทำการสร้างข้อมูลดังในรูปที่ 21 และผลการทำงานดังในรูปที่ 22Capture20

รูปที่ 21 แสดงการใช้งานโอเปอเรเตอร์ Generate Vector

Capture21

รูปที่ 22 แสดงผลลัพธ์การทำงานของโอเปอเรเตอร์ Generate Vector

ผู้อ่านท่านใดสนใจดูตัวอย่างการใช้งาน R ใน RapidMiner Studio 6 สามารถดูได้จาก vdo นี้ครับ

ดาวน์โหลดฟรีหนังสือ Predictive Analytics for Dummies

Screen Shot 2557-07-18 at 9.33.43 AM ดาวน์โหลดหนังสือ Predictive Analytics for Dummies (Alteryx Special Edition ได้ฟรีจากเว็บไซต์ นี้เลยครับ หนังสือเล่มนี้จะมี 5 บท คือ

          1. Understanding Predictive Analytics
          2. Making Use of Predictive Analytics in Business
          3. Getting Started with Predictive Analytics
          4. Using Predictive Analytics Tools
          5. Ten Things to Consider with Predictive Analytics

ภาพบรรยากาศการอบรมเชิงปฏิบัติการ Practical Data Mining with RapidMiner Studio 6 รุ่นที่ 2

ผ่านไปแล้วสำหรับการอบรม Practical Data Mining with RapidMiner Studio 6 รุ่นที่ 2 ซึ่งมีผู้ให้ความสนใจเข้าร่วมอบรมกับทางเราอย่างล้นหลามมากถึง 68 ท่าน และถือว่าเป็นรอบที่มีผู้เข้าร่วมอบรมมากที่สุดเท่าที่เราเคยจัดมา ทางเราขอขอบพระคุณทุกท่านที่ได้สละเวลามาเข้าร่วมอบรมในครั้งนี้ และหวังเป็นอย่างยื่งว่าท่านจะชอบซอฟต์แวร์ RapidMiner Studio 6 มากขึ้น ^^


ขอบคุณภาพสวยๆ จากคุณวุฒิชัย (@WUTTO)
IMG_2318
IMG_1997 IMG_2021 IMG_2026 IMG_2063 IMG_2046 IMG_2038 IMG_2014 IMG_2000

 

ชมภาพบรรยากาศทั้งหมดได้ที่ Facebook ของ DataCube

kdnuggets-2014-software-poll-word-cloud

RapidMiner ได้รับการโหวตว่าเป็นซอฟต์แวร์ที่มีผู้ใช้มากที่สุดจาก KDnuggets Poll

ทุกๆ ปีเว็บไซต์ KDnuggets ซึ่งเป็นเว็บยอดนิยมทางด้านการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining จะจัดทำแบบสำรวจ (Poll) การใช้งานซอฟต์แวร์ในการทำงานทางด้าน Data Mining และในปี 2014 นี้มีผู้ร่วมลงคะแนนกว่า 3,000 คนและผลการโหวตคือคนส่วนใหญ่ที่ลงคะแนนใช้ซอฟต์แวร์ RapidMiner คิดเป็นจำนวน 44.2% (ซึ่งครองแชมป์ต่อจากเมื่อปี 2013) และรองลงมาคือซอฟต์แวร์ R คิดเป็น 38.5% ส่วนซอฟต์แวร์อื่นๆ ใน 10 อันดับแรกมีดังนี้

  1. RapidMiner                        44.2%
  2. R                                             38.5%
  3. Excel                                     25.8%
  4. SQL                                        23.5%
  5. Python                                 19.5%
  6. Weka                                     17.0%
  7. KNIME                                   15.0%
  8. Hadoop                                12.7%
  9. SAS base                              10.9%
  10. Microsoft SQL Server      10.5%

รายละเอียดเพิ่มเติมติดตามได้จาก http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

ภาพบรรยากาศการอบรมเชิงปฏิบัติการ Practical Data Mining with RapidMiner Studio 6 รุ่นที่ 1

ผ่านไปแล้วกับการอบรม Practical Data Mining with RapidMiner Studio 6 รุ่นที่ 1 ซึ่งมีผู้สนใจเข้าร่วมอบรมเป็นจำนวนมาก และเป็นคอร์สที่ใหญ่ที่สุดที่ทางเราเคยจัดอบรมมา ทางเราขอขอบพระคุณทุกท่านที่ได้สละเวลามาเข้าร่วมอบรมในครั้งนี้ และหวังเป็นอย่างยื่งว่าท่านจะชอบซอฟต์แวร์ RapidMiner Studio 6 มากขึ้น ^^

IMG_6074

IMG_8435 IMG_8457 IMG_6065 IMG_6006

 

ชมภาพบรรยากาศทั้งหมดได้ที่ Facebook ของ DataCube

Data Mining for Statisticians (vdo)

ขอแนะนำวิดีโอเรื่อง Data Mining for Statisticians แบ่งเป็นตอนสั้นๆ ตอนละประมาณ 20 นาทีซึ่งประกอบด้วย 6 ตอนดังนี้

 

ภาพบรรยากาศการอบรมเชิงปฏิบัติการพัฒนา WEB APPLICATION ด้วย WEKA และ PHP รุ่นที่ 2

ภาพบรรยากาศการอบรม Web Application Development using Weka and PHP รุ่นที่ 2 ซึ่งยังคงได้รับการตอบรับที่ดีเหมือนเช่นเคย ทีมงาน data cube ขอขอบคุณผู้เข้าร่วมอบรมทุกท่านที่ให้ความไว้วางใจและมาอบรมกับทางเราครับ ทางเราจะปรับปรุงมาตรฐานให้ดีขึ้นไปอีกครับ ^^

IMG_7316 IMG_7195 IMG_7194  IMG_7217 IMG_7211

ดูภาพบรรยากาศทั้งหมดได้ที่นี่

ดาวน์โหลดฟรีหนังสือ Social Media Mining An Introduction

9781107018853ดาวน์โหลดฟรีหนังสือ Social Media Mining An Introduction มีหัวข้อต่างๆ ดังนี้

หรือดาวน์โหลดหนังสือทั้งเล่มได้ฟรีที่ http://dmml.asu.edu/smm/SMM.pdf