Evaluasi Kinerja Algoritma Berbasis Decision Tree pada Dataset Skala Kecil: Studi Perbandingan Analisis Komparatif

Authors

  • Arie Setya Putra Teknologi Informasi, Jl. ZA Pagar Alam No.7, Bandar Lampung, Indonesia
  • Ochi Marshella Febriani Sistem Informasi, Jl. ZA Pagar Alam No.93, Bandar Lampung, Indonesia
  • Agus Wantoro Department of Informatics Engineering, Faculty of Technology and Informatics, Aisyah University, Indonesia

Keywords:

Machine Learning, Decision Tree, Dataset Kecil

Abstract

Perkembangan Machine Learning (ML) telah memberikan kontribusi signifikan dalam berbagai bidang, khususnya pada proses klasifikasi data. Salah satu kelompok algoritma yang banyak digunakan adalah algoritma berbasis decision tree, seperti J48, Random Forest, dan Random Tree. Meskipun algoritma tersebut telah banyak diteliti, sebagian besar studi dilakukan pada dataset berukuran besar, sementara kondisi penggunaan dataset kecil masih jarang dieksplorasi. Padahal, dalam praktik nyata, keterbatasan data sering menjadi tantangan, terutama pada bidang penelitian kesehatan, sosial, maupun eksperimen laboratorium. Penelitian ini bertujuan untuk mengevaluasi kinerja tiga algoritma decision tree, yaitu J48, Random Forest, dan Random Tree pada dataset kecil. Evaluasi dilakukan dengan menggunakan dataset penilaian mahasiswa dengan jumlah record dari 100. Metode 5-fold cross validation digunakan untuk memperoleh hasil evaluasi yang lebih stabil. Kinerja algoritma dibandingkan berdasarkan metrik akurasi, presisi, recall, F1-score, dan waktu komputasi. Hasil penelitian menunjukkan bahwa Random Forest cenderung memberikan akurasi dan stabilitas yang lebih baik dibandingkan J48 dan Random Tree, meskipun membutuhkan waktu komputasi yang relatif lebih tinggi. Sementara itu, J48 memiliki keunggulan dalam interpretabilitas, sedangkan Random Tree menawarkan fleksibilitas dengan kompleksitas yang lebih rendah dan waktu komputasi yang lebih baik. Temuan ini menegaskan pentingnya pemilihan algoritma yang tepat sesuai dengan ukuran dataset dan tujuan penelitian

Downloads

Download data is not yet available.

References

U. S. Reddy, A. V. Thota, and A. Dharun, “Machine Learning Techniques for Stress Prediction in Working Employees,” 2018 IEEE Int. Conf. Comput. Intell. Comput. Res. ICCIC 2018, no. May, 2018, doi: 10.1109/ICCIC.2018.8782395.

A. Agliata, D. Giordano, F. Bardozzo, S. Bottiglieri, A. Facchiano, and R. Tagliaferri, “Machine Learning as a Support for the Diagnosis of Type 2 Diabetes,” International Journal of Molecular Sciences, vol. 24, no. 7. 2023. doi: 10.3390/ijms24076775.

M. T. H. Sultan, V. R. Kar, S. K. Panda, and K. Jayakrishna, “Advanced Composite Materials and Structures,” Adv. Compos. Mater. Struct., no. April, 2022, doi: 10.1201/9781003158813.

A. Wantoro, A. F. Yuliana, D. Yana, A. Andini, and I. Awaliyani, “Optimizing Type 2 Diabetes Classification with Feature Selection and Class Balancing in Machine Learning,” J. Tek. Inform., vol. 6, no. 4, pp. 2625–2637, 2025.

C. H. B. Liu, B. P. Chamberlain, D. A. Little, and Â. Cardoso, “Generalising Random Forest Parameter Optimisation to Include Stability and Cost BT - Machine Learning and Knowledge Discovery in Databases,” 2017, pp. 102–113.

A. Tharwat, “Parameter investigation of support vector machine classifier with kernel functions,” Knowl. Inf. Syst., vol. 61, no. 3, pp. 1269–1302, 2019, doi: 10.1007/s10115-019-01335-4.

B. Mahesh, “Machine Learning Algorithms - A Review,” Int. J. Sci. Res., vol. 9, no. 1, pp. 381–386, 2020, doi: 10.21275/art20203995.

A. B. R. Shatte, D. M. Hutchinson, and S. J. Teague, “Machine learning in mental health: a scoping review of methods and applications,” Psychol. Med., vol. 49, no. 9, pp. 1426–1448, 2019, doi: DOI: 10.1017/S0033291719000151.

E. Susetyarini and A. Fauzi, “Trend of critical thinking skill researches in biology education journals across Indonesia: From research design to data analysis,” Int. J. Instr., vol. 13, no. 1, pp. 535–550, 2020, doi: 10.29333/iji.2020.13135a.

R. Iacob et al., “Evaluating the Role of Breast Ultrasound in Early Detection of Breast Cancer in Low- and Middle-Income Countries: A Comprehensive Narrative Review,” Bioengineering, vol. 11, no. 3. 2024. doi: 10.3390/bioengineering11030262.

H. Sulistiani, A. Syarif, K. Muludi, and Warsito, “Performance evaluation of feature selections on some ML approaches for diagnosing the narcissistic personality disorder,” Bull. Electr. Eng. Informatics, vol. 13, no. 2, pp. 1383–1391, 2024, doi: 10.11591/eei.v13i2.6717.

N. R. Muntiari and K. H. Hanif, “Klasifikasi Penyakit Kanker Payudara Menggunakan Perbandingan Algoritma Machine Learning,” J. Ilmu Komput. dan Teknol., vol. 3, no. 1, pp. 1–6, 2022, doi: 10.35960/ikomti.v3i1.766.

I. Düntsch and G. Gediga, “Confusion Matrices and Rough Set Data Analysis,” J. Phys. Conf. Ser., vol. 1229, no. 1, 2019, doi: 10.1088/1742-6596/1229/1/012055.

M. Ohsaki, P. Wang, K. Matsuda, S. Katagiri, H. Watanabe, and A. Ralescu, “Confusion-matrix-based kernel logistic regression for imbalanced data classification,” IEEE Trans. Knowl. Data Eng., vol. 29, no. 9, pp. 1806–1819, 2017, doi: 10.1109/TKDE.2017.2682249.

I. Popchev and D. Orozova, “Algorithms for Machine Learning with Orange System,” Int. J. online Biomed. Eng., vol. 19, no. 4, pp. 109–123, 2023, doi: 10.3991/ijoe.v19i04.36897

Published

2026-02-07