Please use this identifier to cite or link to this item:
http://ir-ithesis.swu.ac.th/dspace/handle/123456789/1705
Title: | STROKE PREDICTION USING MACHINE LEARNING การทำนายโรคหลอดเลือดสมองโดยใช้การเรียนรู้ของเครื่อง |
Authors: | SAKOL PATCHARAPANYAWAT สากล พัชรปัญญวัฒน์ Chantri Polprasert จันตรี ผลประเสริฐ Srinakharinwirot University Chantri Polprasert จันตรี ผลประเสริฐ chantri@swu.ac.th chantri@swu.ac.th |
Keywords: | โรคหลอดเลือดสมอง การเรียนรู้ของเครื่อง การประเมินความเสี่ยงต่อการเกิดโรคหลอดเลือดสมอง Stroke Machine learning Stroke risk assessment |
Issue Date: | 8 |
Publisher: | Srinakharinwirot University |
Abstract: | In this study, we developed a machine learning (ML)-based approach for the prediction of stroke risk. To be specific, healthcare datasets containing 5,110 cases that are available in the Kaggle dataset were employed and then only 4,254 cases were selected, all adults, aged 18 years of age or older. In addition, the performance of three popular ML algorithms was compared and investigated, including Logistic Regression (LR), Random Forest (RF), and Support Vector Machine (SVM). A confusion matrix was used to summarize the performance of a classification model with accuracy, precision, recall, f1-score, specificity, and the AUC (Area Under The Curve) represented the degree of separability. In the experiment, RF achieved the best performance with an accuracy of 0.94, a precision of 0.93, a recall of 0.95, an f1-score of 0.94, a specificity of 0.93, and an AUC of 0.94. The top three features of importance of the RF model included age at 0.39, average glucose level of 0.20, and body mass index at 0.15, respectively. การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อศึกษาการทำนายความเสี่ยงต่อการเกิดโรคหลอดเลือดสมองในวัยผู้ใหญ่โดยใช้การเรียนรู้ของเครื่อง การศึกษานี้เราต้องการตรวจสอบประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องในสามโมเดลซึ่งประกอบไปด้วยโมเดล Logistic Regression (LR), Random Forest (RF) และ Support vector machine (SVM) เราใช้ชุดข้อมูลการดูแลสุขภาพที่มีอยู่ในชุดข้อมูลของ Kaggle dataset ซึ่งมีข้อมูลผู้ป่วย 5,110 คนและเราเลือกผู้ป่วยเหลือเพียง 4,254 คน ที่เป็นผู้ป่วยวัยผู้ใหญ่ที่มีอายุ 18 ปีขึ้นไป เมทริกซ์ความสับสนใช้สำหรับการสรุปประสิทธิภาพของโมเดลการจำแนกประเภทประกอบไปด้วยค่าความแม่นยำ ค่าความเที่ยงตรง ค่าความไว ค่าความจำเพาะ ค่าประสิทธิภาพโดยรวม (f1-score) และ พื้นที่ใต้กราฟ AUC (Area Under The Curve) จากการทดลองครั้งนี้ RF เป็นโมเดลที่มีประสิทธิภาพที่ดีที่สุดด้วย ค่าความแม่นยำเท่ากับ 0.94 ค่าความเที่ยงตรงเท่ากับ 0.93 ค่าความไวเท่ากับ 0.95 ความจำเพาะเท่ากับ 0.93 ค่า ค่าประสิทธิภาพโดยรวม (f1-score) เท่ากับ 0.94 และค่าพื้นที่ใต้กราฟเท่ากับ 0.94 และสามอันดับสูงสุดของความสำคัญของฟีเจอร์ของโมเดล RF ที่มีลำดับตามความสำคัญจากมากไปน้อยคือตัวแปร อายุ มีค่า 0.38 ค่าเฉลี่ยของระดับน้ำตาลในเลือด มีค่า 0.20 และ ค่าดัชนีมวลกาย มีค่าเท่ากับ 0.15 ตามลำดับ |
URI: | http://ir-ithesis.swu.ac.th/dspace/handle/123456789/1705 |
Appears in Collections: | Faculty of Science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
gs631130349.pdf | 3.98 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.