Please use this identifier to cite or link to this item: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/1705
Title: STROKE PREDICTION USING MACHINE LEARNING
การทำนายโรคหลอดเลือดสมองโดยใช้การเรียนรู้ของเครื่อง
Authors: SAKOL PATCHARAPANYAWAT
สากล พัชรปัญญวัฒน์
Chantri Polprasert
จันตรี ผลประเสริฐ
Srinakharinwirot University
Chantri Polprasert
จันตรี ผลประเสริฐ
chantri@swu.ac.th
chantri@swu.ac.th
Keywords: โรคหลอดเลือดสมอง
การเรียนรู้ของเครื่อง
การประเมินความเสี่ยงต่อการเกิดโรคหลอดเลือดสมอง
Stroke
Machine learning
Stroke risk assessment
Issue Date:  8
Publisher: Srinakharinwirot University
Abstract: In this study, we developed a machine learning (ML)-based approach for the prediction of stroke risk. To be specific, healthcare datasets containing 5,110 cases that are available in the Kaggle dataset were employed and then only 4,254 cases were selected, all adults, aged 18 years of age or older. In addition, the performance of three popular ML algorithms was compared and investigated, including Logistic Regression (LR), Random Forest (RF), and Support Vector Machine (SVM). A confusion matrix was used to summarize the performance of a classification model with accuracy, precision, recall, f1-score, specificity, and the AUC (Area Under The Curve) represented the degree of separability. In the experiment, RF achieved the best performance with an accuracy of 0.94, a precision of 0.93, a recall of 0.95, an f1-score of 0.94, a specificity of 0.93, and an AUC of 0.94. The top three features of importance of the RF model included age at 0.39, average glucose level of 0.20, and body mass index at 0.15, respectively.
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อศึกษาการทำนายความเสี่ยงต่อการเกิดโรคหลอดเลือดสมองในวัยผู้ใหญ่โดยใช้การเรียนรู้ของเครื่อง การศึกษานี้เราต้องการตรวจสอบประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องในสามโมเดลซึ่งประกอบไปด้วยโมเดล Logistic Regression (LR), Random Forest (RF) และ Support vector machine (SVM) เราใช้ชุดข้อมูลการดูแลสุขภาพที่มีอยู่ในชุดข้อมูลของ Kaggle dataset ซึ่งมีข้อมูลผู้ป่วย 5,110 คนและเราเลือกผู้ป่วยเหลือเพียง 4,254 คน ที่เป็นผู้ป่วยวัยผู้ใหญ่ที่มีอายุ 18 ปีขึ้นไป เมทริกซ์ความสับสนใช้สำหรับการสรุปประสิทธิภาพของโมเดลการจำแนกประเภทประกอบไปด้วยค่าความแม่นยำ ค่าความเที่ยงตรง ค่าความไว ค่าความจำเพาะ ค่าประสิทธิภาพโดยรวม  (f1-score) และ พื้นที่ใต้กราฟ AUC (Area Under The Curve) จากการทดลองครั้งนี้ RF เป็นโมเดลที่มีประสิทธิภาพที่ดีที่สุดด้วย ค่าความแม่นยำเท่ากับ 0.94 ค่าความเที่ยงตรงเท่ากับ 0.93 ค่าความไวเท่ากับ 0.95 ความจำเพาะเท่ากับ 0.93 ค่า ค่าประสิทธิภาพโดยรวม (f1-score) เท่ากับ 0.94 และค่าพื้นที่ใต้กราฟเท่ากับ 0.94  และสามอันดับสูงสุดของความสำคัญของฟีเจอร์ของโมเดล RF ที่มีลำดับตามความสำคัญจากมากไปน้อยคือตัวแปร อายุ มีค่า 0.38 ค่าเฉลี่ยของระดับน้ำตาลในเลือด มีค่า 0.20 และ ค่าดัชนีมวลกาย มีค่าเท่ากับ 0.15 ตามลำดับ 
URI: http://ir-ithesis.swu.ac.th/dspace/handle/123456789/1705
Appears in Collections:Faculty of Science

Files in This Item:
File Description SizeFormat 
gs631130349.pdf3.98 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.