การวิเคราะห์ข้อความ (text mining) เบื้องต้นด้วย RapidMiner Studio 7

สไลด์แนะนำการวิเคราะห์ข้อความ (text) เบื้องต้นโดยการใช้ซอฟต์แวร์ RapidMiner Studio 7 ครับ โดยในสไลด์จะแนะนำ concept ดังนี้

  • Tokenization คือ การตัดคำจากข้อความให้ออกมาเป็นคำเดี่ยวๆ
  • Stemming คือ การแปลงคำให้อยู่ในรูปแบบของรากศัพท์ (root) เช่น การตัด ing, ed, es ทิ้งไป
  • Remove Stop words คือ การลบคำที่ไม่สำคัญทิ้งไปจากข้อมูล

รายละเอียดเพิ่มเติมติดตามได้จากสไลด์ด้านล่างได้เลยครับ