โครงงานนักศึกษา

การวิเคราะห์ข้อมูลเพื่อทำนายลักษณะของผู้ป่วยโรคเบาหวานจากชุดข้อมูลทุติยภูมิแบบเปิด

data analysis of using an open secondary data set to predict the features of patients with diabetes
เสร็จสมบูรณ์
ความก้าวหน้า
100%
ยื่นเสนอหัวข้อโครงการ
ผ่านการสอบข้อเสนอ
ลงทะเบียน
ผ่านการสอบความก้าวหน้า
สอบผ่าน final รอปรับแก้
6
เสร็จสมบูรณ์

บทคัดย่อ

โครงงานวิจัยนี้มีวัตถุประสงค์เพื่อวิเคราะห์และทำนายลักษณะของผู้ป่วยโรคเบาหวานจากชุดข้อมูลทุติยภูมิแบบเปิด โดยนำชุดข้อมูลจากเว็บไซต์ kaggle ซึ่งประกอบด้วยข้อมูลผู้ป่วยจำนวน 100,000 รายการ มาดำเนินการเตรียมข้อมูล แก้ไขค่าที่ขาดหาย และคัดเลือกตัวแปรสำคัญที่เกี่ยวข้องกับปัจจัยเสี่ยง เช่น เพศ ความดันโลหิตสูง และโรคหัวใจ จากนั้นใช้กระบวนการวิเคราะห์ข้อมูลตามขั้นตอนของ crisp–dm และนำเทคนิคการทำเหมืองข้อมูลแบบ classification ในรูปแบบของต้นไม้ตัดสินใจ (decision tree) มาสร้างแบบจำลองเพื่อใช้ในการทำนาย กระบวนการวิจัยเริ่มจากการจัดเตรียมและทำความสะอาดข้อมูล ซึ่งข้อมูลต้นฉบับมีความไม่สมดุลระหว่างกลุ่มผู้ป่วยและผู้ไม่ป่วย จึงนำเทคนิค smote (synthetic minority over-sampling technique) มาใช้เพื่อปรับสมดุลข้อมูลก่อนการสร้างแบบจำลอง ผลการวิเคราะห์พบว่าโมเดลให้ความแม่นยำสูงสุดมีค่าความถูกต้องเฉลี่ย 90.69% โดยมีตัวแปร hba1c level และ blood glucose level เป็นปัจจัยสำคัญที่สุดในการจำแนกผลลัพธ์ ส่วนตัวแปร age, bmi และ hypertension มีอิทธิพลในลำดับรองลงมา ผลการศึกษาชี้ให้เห็นว่าเทคนิคการทำเหมืองข้อมูลร่วมกับการปรับสมดุลข้อมูลสามารถช่วยเพิ่มประสิทธิภาพในการจำแนกผู้ป่วยโรคเบาหวานได้อย่างมีนัยสำคัญ และผลลัพธ์ที่ได้สามารถนำไปประยุกต์ใช้ในการสร้างระบบสนับสนุนการตัดสินใจทางด้านสาธารณสุข เพื่อช่วยวางแผนการป้องกันและติดตามความเสี่ยงของผู้ป่วยโรคเบาหวานได้อย่างมีประสิทธิภาพ