Python Data Cleaning: Menghapus Kolom dan Baris di DataFrame

Data cleaning atau data cleansing di dalam data mining adalah proses mendeteksi, mengkoreksi/memperbaiki, atau menghapus data yang rusak atau tidak sesuai format yang diinginkan dari sekumpulan data (dataset). Proses yang termasuk pre-processing data ini sangat penting dilakukan sebelum proses mining data. Jika data cleaning tidak dilakukan maka akan sangat mengganggu proses mining data itu sendiri. Bisa jadi hasil mining data menjadi tidak akurat atau error ketika melakukan mining akibat inkonsistensi data.

Secara umum, proses data cleaning meliputi: menghapus data yang tidak perlu, memperbaiki struktur data yang tidak sesuai, menghilangkan data outlier, dan menangani data yang hilang (missing data).

Pada artikel kali ini, saya akan membahas tentang teknik menghapus data yang tidak perlu dari serangkaian dataset menggunakan Python. Data yang akan dihapus dalam pembahasan kali ini terkait dengan penghapus kolom dataset yang tidak diperlukan, serta menghapus record data yang tidak valid (bernilai null atau NaN).

Continue reading “Python Data Cleaning: Menghapus Kolom dan Baris di DataFrame”