THE ANALYSIS OF THAI LANGUAGE  ON PREGNANCY PROBLEMS DOMAIN:USING LATENT DIRICHLET ALLOCATION FOR TOPIC MODELING

Loading...
Thumbnail Image

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Srinakharinwirot University

Abstract

Nowadays, there are many messages used to discuss problems with doctors through online communities. It is a difficult task for doctors to answer questions in a timely manner. Currently, chatbot systems are applied to provide information, ask and answer questions, but the development of chatbot systems is limited. For example, it is expensive and a challenging task to make computers understand human language from text in documents. The objective of this research is to analyze significant words and topics in the text, to create a model that can be used to develop an automated response system (Chatbot), to be able to interact with users more relevantly by using topic modeling and clustering methods. The technique used in this research is Latent Dirichlet Allocation in the Analysis of Significant Words and Topics in Pregnancy sexual relations and birth control Texts. Also, as a part of the performance assessment, the K-means technique was used for clustering topics and to assess the cluster efficiency using Silhouette Coefficient.
ปัจจุบันมีผู้ใช้งานอินเตอร์เน็ตจำนวนมากเข้าปรึกษาปัญหากับแพทย์ผ่านชุมชนออนไลน์ (Community question answering: CQA) ซึ่งเป็นงานที่หนักสำหรับแพทย์ที่ต้องตอบคำถามให้ทัน ซึ่งปัจจุบันมีการนำระบบหุ่นยนต์โต้ตอบการสนทนา (Chatbot) มาประยุกต์ใช้ในการให้ข้อมูล ถามตอบปัญหา แต่การพัฒนาระบบหุ่นยนต์โต้ตอบการสนทนา (Chatbot) นั้นมีข้อจำกัด เช่น มีราคาแพง และเป็นงานที่ท้าทายในการที่จะทำให้คอมพิวเตอร์เข้าใจถึงภาษามนุษย์จากข้อความในเอกสารที่เป็นภาษาไทย งานวิจัยนี้จึงมีวัตถุประสงค์ในการวิเคราะห์หาคำที่มีนัยสำคัญและการจำแนกหัวข้อในข้อความที่มีความคล้ายคลึงกัน เพื่อสร้างแบบจำลองที่สามารถนำไปพัฒนาระบบโต้ตอบอัตโนมัติ (Chatbot) ให้สามารถโต้ตอบกับผู้ใช้งานได้ตรงประเด็นมากขึ้น โดยใช้วิธีการสร้างแบบจำลองหัวข้อ (Topic modeling) และการจำแนกกลุ่มข้อความ (Clustering) โดยงานวิจัยนี้ได้ประยุกต์ใช้เทคนิค การจัดสรรดีรีเคลแฝง (Latent Dirichlet Allocation) ในการวิเคราะห์หาคำที่มีนัยสำคัญและจำแนกหัวข้อในข้อความเกี่ยวกับเรื่องของการตั้งครรภ์ การมีเพศสัมพันธ์ และการคุมกำเนิด ในส่วนของการประเมินประสิทธิภาพ ได้ใช้การวัดผลแบบ extrinsic evaluation โดยใช้เทคนิค K-means ในการจัดกลุ่มหัวข้อและประเมินประสิทธิภาพการจำแนกกลุ่มด้วย Silhouette Coefficient

Description

MASTER OF SCIENCE (M.Sc.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)

Citation

Endorsement

Review

Supplemented By

Referenced By