ตัวอย่างหนังสือ RapidMiner: Data Mining Use Cases and Business Analytics Applications

9781482205497ตัวอย่างบางบทจากในหนังสือ RapidMiner: Data Mining Use Cases and Business Analytics Applications ครับ เล่มนี้เป็นหนังสืออีกเล่มที่น่าสนใจสำหรับผู้สนใจอยากใช้ RapidMiner ดูรายละเอียดเพิ่มเติมได้ที่ หลักสูตรการวิเคราะห์ข้อมูลด้วยเทคนิค Data Mining โดยซอฟต์แวร์ RapidMiner Studio 6 (ขั้นพื้นฐานและปานกลาง) ครับ ^^

บทที่ 1 What This Book is About and What It is Not
บทที่ 2 Getting Used to RapidMiner
บทที่ 6 Naive Bayes Classificaton II
บทที่ 14 Robust Language Identification with RapidMiner: A Text Mining Use Case

การหา optimize parameter สำหรับ libsvm ด้วย RapidMiner Studio 6

ในปัจจุบันนี้เทคนิคการทำ classification ที่นิยมและให้ผลที่ดีก็คือ Support Vector Machine หรือ SVM แต่ไอเดียการทำงานของ SVM ค่อนข้างจะยุ่งยากในการจะนำมา implement เอง จึงได้มีอาจารย์จากมหาวิทยาลัยที่ประเทศไต้หวันได้พัฒนาโปรแกรมที่ชื่อว่า libsvm ขึ้นมาด้วยภาษา C/C++ และแจกจ่ายให้ผู้สนใจไปใช้งานได้ฟรี จนเป็นที่นิยมอย่างแพร่หลายในการทำงานวิจัย แต่การใช้ libsvm จำเป็นต้องทำการกำหนดค่า parameter ของ SVM ให้เหมาะสมถึงจะทำงานได้อย่างมีประสิทธิภาพ เพื่อให้การหา parameter นี้ได้ง่ายขึ้นในชุดของ libsvm จึงมีโปรแกรมที่ชื่อว่า grid.py ที่เป็นภาษา Python เตรียมไว้ให้ โปรแกรมนี้จะทำการเลือก parameter ที่เหมาะสมให้แต่ต้องรันบนระบบปฏิบัติการ Linux หรือต้องติดตั้งซอฟต์แวร์ cygwin สำหรับ Windows เสียก่อน ซึ่งก็ยุ่งยากพอควร

ในบทความนี้ผมจะแนะนำการหา parameter ที่เหมาะสมของ SVM โดยใช้ RapidMiner Studio 6 (ดังในรูปที่ 1)

optimize libsvm process

รูปที่ 1 process แสดงการหาพารามิเตอร์ที่เหมาะสมสำหรับ libsvm

ซึ่งข้อดีอย่างหนึ่งของ RapidMiner Studio 6 คือเราสามารถดาวน์โหลด process ที่เตรียมไว้ให้แล้วไปเปลี่ยนเฉพาะข้อมูลที่เราจะนำมาใช้ก็พอ ซึ่งผมจะแสดงตัวอย่างการใช้งาน process ดังกล่าวให้ดูในบทความนี้ครับ (ดาวน์โหลด process และข้อมูลไฟล์ Excel ได้จากที่นี่ครับ) สำหรับการใช้งาน RapidMiner Studio 6 เบื้องต้นติดตามได้ที่นี่
Continue reading

ทุนศึกษาต่อระดับปริญาเอกแบบ Dual Degree

วันนี้ขอแนะนำทุนศึกษาต่อระดับปริญญาเอกแบบ Dual Degree ครับเรียนจบจะได้ปริญญาเอก 2 ใบครับโดยได้รับจาก

  • สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
  • สถาบัน Japan Advanced Institute of Science and Technology (JAIST) ประเทศญี่ปุ่น

หลักสูตรนี้เป็นหลักสูตร 4 ปีครับ นักศึกษาจะได้มีโอกาสเดินทางไปศึกษาที่ประเทศญี่ปุ่นเป็นเวลา 2 ปี โดยมีรายละเอียดดังนี้

  • ปีที่ 1 และ 3 เรียนที่ประเทศไทย
  • ปีที่ 2 และ 4 เรียนที่ประเทศญี่ปุ่น

ทุนนี้เปิดรับสมัครทุกปี ปีนี้เปิดรับสมัครตั้งแต่วันนี้ถึงวันที่ 16 พฤษภาคม 2557 รายละเอียดเพิ่มเติมดูได้จาก http://www2.siit.tu.ac.th/ictprojects/siitjaist/

ดาวน์โหลดฟรี หนังสือ Practical Machine Learning

สำนักพิมพ์ O’REILLY ได้แจกหนังสือเรื่อง Practical Machine Learning: Innovation in Recommendations ฟรี ผู้สนใจสามารถดาวน์โหลดได้ที่
http://www.mapr.com/practical-machine-learning?imm_mid=0b7b85&cmp=em-strata-na-na-newsltr_free_report_20140219_elist

practical-machine-learning-cover

แนะนำ conference เกี่ยวกับ Big Data

วันนี้ผมขอแนะนำ 2 conference ที่เกี่ยวกับ Big Data

  1. 2014 IEEE International Conference on Big Data (IEEE BigData 2014)
    มีรายละเอียดดังนี้
    In recent years, “Big Data” has become a new ubiquitous term. Big Data is transforming science, engineering, medicine, healthcare, finance, business, and ultimately society itself. The IEEE International Conference on Big Data 2014 (IEEE BigData 2014) provides a leading forum for disseminating the latest research in Big Data Research, Development, and Applications.We solicit high-quality original research papers (including significant work-in-progress) in any aspect of Big Data with emphasis on 5Vs (Volume, Velocity, Variety, Value and Veracity) relevant to variety of data (scientific and engineering, social, sensor/IoT/IoE, and multimedia-audio, video, image, etc) that contribute to the Big Data challenges. This includes but is not limited to the following:

    1. Big Data Science and Foundations
    2. Big Data Infrastructure
    3. Big Data Management
    4. Big Data Search and Mining
    5. Big Data Security & Privacy
    6. Big Data Applications

    วันสุดท้ายของการส่ง paper (submission deadline): 6 กรกฏาคม 2557 (July 6, 2014)
    รายละเอียดเพิ่มเติมติดตามได้ที่ http://cci.drexel.edu/bigdata/bigdata2014/

  2. The 3rd IEEE International Conference on Big Data Science and Engineering (BDSE 2014) มีรายละเอียดดังนี้
    Big data is an emerging paradigm applied to datasets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Such datasets are often from various sources (Variety) yet unstructured such as social media, sensors, scientific applications, surveillance, video and image archives, Internet texts and documents, Internet search indexing, medical records, business transactions and web logs; and are of large size (Volume) with fast data in/out (Velocity). More importantly, big data has to be of high value (Value) and establish trust in it for business decision making (Veracity). Various technologies are being discussed to support the handling of big data such as massively parallel processing databases, scalable storage systems, cloud computing platforms, and MapReduce. Big data is more than simply a matter of size; it is an opportunity to find insights in new and emerging types of data and content, to make business more agile, and to answer questions that were previously considered beyond our reach. Distributed systems is a classical research discipline investigating various distributed computing technologies and applications such as cloud computing and MapReduce. With new paradigms and technologies, distributed systems research keeps going with new innovative outcomes from both industry and academia. For example, wide deployment of MapReduce is a distributed programming paradigm and an associated implementation to support distributed computing over large big datasets on cloud.BDSE (Big Data Science and Engineering) is created to provide a prime international forum for both researchers, industry practitioners and environment experts to exchange the latest fundamental advances in the state of the art and practice of Big Data and broadly related areas.

    BDSE 2014 is the next event in a series of highly successful International Conferences, previously held as BDSE2013 (Sydney Australia), BigDataMR-12 (Xiangtan, China November 2012), AHPCN-12 (Bradford, UK, June 2012), AHPCN-11 (Banff, Canada, September 2011), AHPCN-10 (Melbourne, Australia, September 2010), AHPCN-09 (Seoul, Korea, June 2009), AHPCN-08 (Dalian, China, September 2008).

    วันสุดท้ายของการส่ง paper (submission deadline): 5 พฤษภาคม 2557 (May 5, 2014)
    รายละเอียดเพิ่มเติมติดตามได้ที่ http://www.swinflow.org/confs/bdse2014/index.htm

machine_learning

ฟรี!! หลักสูตรการเรียนออนไลน์หลักสูตร Machine Learning ของมหาวิทยาลัย Stanford เปิดรับสมัครแล้ว

ก่อนหน้านี้ผมเคยแนะนำหลักสูตร More Data Mining with Weka ที่เป็นการเรียนออนไลน์จากมหาวิทยาลัย Waikato ไปแล้ว วันนี้ผมขอแนะนำอีกหลักสูตรหนึ่งนั่นคือหลักสูตร Machine Learning ของมหาวิทยาลัย Stanford ซึ่งเป็นการเรียนแแบบออนไลน์ได้เปิดรับสมัครแล้ว โดยจะเริ่มเรียนวันที่ 3 มีนาคม 2557 สามารถลงทะเบียนเรียนได้ที่ https://www.coursera.org/course/ml โดยไม่มีค่าใช้จ่าย

การนำโมเดล classification ไปใช้งานใน Weka Explorer

หลังจากที่เราได้สร้างโมเดล classification กันไปแล้วในบทความ “การสร้างโมเดล classification ด้วย Weka Explorer” ที่ผ่านมา วันนี้เราจะนำโมเดลที่ได้มาใช้ในการทำนายข้อมูลใหม่กันครับ โดยมีขั้นตอนดังต่อไปนี้

1.  โหลดไฟล์โมเดลเข้ามาใช้งาน โดยการคลิกขวาในส่วนของ Result list และเลือกเมนู load model ดังในรูปที่ 1

weka_explorer7

รูปที่ 1 การโหลดโมเดลที่สร้างไว้เข้ามาใช้งาน
Continue reading

การสร้างโมเดล classification ด้วย Weka Explorer

บทความตอนนี้ผมจะอธิบายการสร้างโมเดล classification ด้วยซอฟต์แวร์ Weka Explorer ครับ โดยมีขั้นตอนต่างๆ ดังนี้ครับ

1. เปิดซอฟต์แวร์ Weka ขึ้นมาใช้งานจะเห็นหน้าต่างดังในรูปที่ 1 ซึ่งจะมีเมนูให้เลือก 4 อัน ในขั้นนี้เราจะเลือกที่เมนู Explorer ครับ

weka_explorer1
รูปที่ 1 เลือก Weka Explorer เพื่อเริ่มทำงาน

2. หลังจากนั้นหน้าต่าง Weka Explorer ก็จะปรากฏขึ้นมาให้เราเห็นครับ ขั้นถัดมาเราจะต้องเลือกไฟล์สำหรับใช้ในการสร้างโมเดลโดยใน blog นี้ เราจะเลือกใช้ไฟล์ที่ชื่อว่า weather.numeric.arff ซึ่งอยู่ในโฟลเดอร์ data ภายใน path ของ Weka อีกทีครับ ดังนั้นเลือกเมนู Open ครับและเลือกไฟล์ดังกล่าว

weka_explorer2

รูปที่ 2 คลิกปุ่ม Open File และเลือกไฟล์ที่ต้องการใช้ในการสร้างโมเดล

Continue reading

ดาวน์โหลดฟรีหนังสือ Mining of Massive Datasets 2 Edition

mining-of-massive-datasets

ผู้แต่งหนังสือ Mining of Massive Datasets เปิดให้ดาวน์โหลดหนังสือฉบับพิมพ์ครั้งที่ 1 และ 2 ฟรี ผู้สนใจสามารถดาวน์โหลดได้จากเว็บไซต์ http://www.mmds.org โดยฉบับพิมพ์ครั้งที่ 2 มีเนื้อหาดังนี้

ที่มา: เว็บไซต์ KDnuggets.com