THE ANALYSIS OF THAI LANGUAGE ON PREGNANCY PROBLEMS DOMAIN:USING LATENT DIRICHLET ALLOCATION FOR TOPIC MODELING
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Srinakharinwirot University
Abstract
Nowadays, there are many messages used to discuss problems with doctors through online communities. It is a difficult task for doctors to answer questions in a timely manner. Currently, chatbot systems are applied to provide information, ask and answer questions, but the development of chatbot systems is limited. For example, it is expensive and a challenging task to make computers understand human language from text in documents. The objective of this research is to analyze significant words and topics in the text, to create a model that can be used to develop an automated response system (Chatbot), to be able to interact with users more relevantly by using topic modeling and clustering methods. The technique used in this research is Latent Dirichlet Allocation in the Analysis of Significant Words and Topics in Pregnancy sexual relations and birth control Texts. Also, as a part of the performance assessment, the K-means technique was used for clustering topics and to assess the cluster efficiency using Silhouette Coefficient.
ปัจจุบันมีผู้ใช้งานอินเตอร์เน็ตจำนวนมากเข้าปรึกษาปัญหากับแพทย์ผ่านชุมชนออนไลน์ (Community question answering: CQA) ซึ่งเป็นงานที่หนักสำหรับแพทย์ที่ต้องตอบคำถามให้ทัน ซึ่งปัจจุบันมีการนำระบบหุ่นยนต์โต้ตอบการสนทนา (Chatbot) มาประยุกต์ใช้ในการให้ข้อมูล ถามตอบปัญหา แต่การพัฒนาระบบหุ่นยนต์โต้ตอบการสนทนา (Chatbot) นั้นมีข้อจำกัด เช่น มีราคาแพง และเป็นงานที่ท้าทายในการที่จะทำให้คอมพิวเตอร์เข้าใจถึงภาษามนุษย์จากข้อความในเอกสารที่เป็นภาษาไทย งานวิจัยนี้จึงมีวัตถุประสงค์ในการวิเคราะห์หาคำที่มีนัยสำคัญและการจำแนกหัวข้อในข้อความที่มีความคล้ายคลึงกัน เพื่อสร้างแบบจำลองที่สามารถนำไปพัฒนาระบบโต้ตอบอัตโนมัติ (Chatbot) ให้สามารถโต้ตอบกับผู้ใช้งานได้ตรงประเด็นมากขึ้น โดยใช้วิธีการสร้างแบบจำลองหัวข้อ (Topic modeling) และการจำแนกกลุ่มข้อความ (Clustering) โดยงานวิจัยนี้ได้ประยุกต์ใช้เทคนิค การจัดสรรดีรีเคลแฝง (Latent Dirichlet Allocation) ในการวิเคราะห์หาคำที่มีนัยสำคัญและจำแนกหัวข้อในข้อความเกี่ยวกับเรื่องของการตั้งครรภ์ การมีเพศสัมพันธ์ และการคุมกำเนิด ในส่วนของการประเมินประสิทธิภาพ ได้ใช้การวัดผลแบบ extrinsic evaluation โดยใช้เทคนิค K-means ในการจัดกลุ่มหัวข้อและประเมินประสิทธิภาพการจำแนกกลุ่มด้วย Silhouette Coefficient
ปัจจุบันมีผู้ใช้งานอินเตอร์เน็ตจำนวนมากเข้าปรึกษาปัญหากับแพทย์ผ่านชุมชนออนไลน์ (Community question answering: CQA) ซึ่งเป็นงานที่หนักสำหรับแพทย์ที่ต้องตอบคำถามให้ทัน ซึ่งปัจจุบันมีการนำระบบหุ่นยนต์โต้ตอบการสนทนา (Chatbot) มาประยุกต์ใช้ในการให้ข้อมูล ถามตอบปัญหา แต่การพัฒนาระบบหุ่นยนต์โต้ตอบการสนทนา (Chatbot) นั้นมีข้อจำกัด เช่น มีราคาแพง และเป็นงานที่ท้าทายในการที่จะทำให้คอมพิวเตอร์เข้าใจถึงภาษามนุษย์จากข้อความในเอกสารที่เป็นภาษาไทย งานวิจัยนี้จึงมีวัตถุประสงค์ในการวิเคราะห์หาคำที่มีนัยสำคัญและการจำแนกหัวข้อในข้อความที่มีความคล้ายคลึงกัน เพื่อสร้างแบบจำลองที่สามารถนำไปพัฒนาระบบโต้ตอบอัตโนมัติ (Chatbot) ให้สามารถโต้ตอบกับผู้ใช้งานได้ตรงประเด็นมากขึ้น โดยใช้วิธีการสร้างแบบจำลองหัวข้อ (Topic modeling) และการจำแนกกลุ่มข้อความ (Clustering) โดยงานวิจัยนี้ได้ประยุกต์ใช้เทคนิค การจัดสรรดีรีเคลแฝง (Latent Dirichlet Allocation) ในการวิเคราะห์หาคำที่มีนัยสำคัญและจำแนกหัวข้อในข้อความเกี่ยวกับเรื่องของการตั้งครรภ์ การมีเพศสัมพันธ์ และการคุมกำเนิด ในส่วนของการประเมินประสิทธิภาพ ได้ใช้การวัดผลแบบ extrinsic evaluation โดยใช้เทคนิค K-means ในการจัดกลุ่มหัวข้อและประเมินประสิทธิภาพการจำแนกกลุ่มด้วย Silhouette Coefficient
Description
MASTER OF SCIENCE (M.Sc.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)