Python Data Cleaning: Menghapus Kolom dan Baris di DataFrame

Data cleaning atau data cleansing di dalam data mining adalah proses mendeteksi, mengkoreksi/memperbaiki, atau menghapus data yang rusak atau tidak sesuai format yang diinginkan dari sekumpulan data (dataset). Proses yang termasuk pre-processing data ini sangat penting dilakukan sebelum proses mining data. Jika data cleaning tidak dilakukan maka akan sangat mengganggu proses mining data itu sendiri. Bisa jadi hasil mining data menjadi tidak akurat atau error ketika melakukan mining akibat inkonsistensi data.

Secara umum, proses data cleaning meliputi: menghapus data yang tidak perlu, memperbaiki struktur data yang tidak sesuai, menghilangkan data outlier, dan menangani data yang hilang (missing data).

Pada artikel kali ini, saya akan membahas tentang teknik menghapus data yang tidak perlu dari serangkaian dataset menggunakan Python. Data yang akan dihapus dalam pembahasan kali ini terkait dengan penghapus kolom dataset yang tidak diperlukan, serta menghapus record data yang tidak valid (bernilai null atau NaN).

Continue reading “Python Data Cleaning: Menghapus Kolom dan Baris di DataFrame”

Teknik Membuat Rekap Data dengan Dictionary Python

Misalkan diberikan data CSV yang berisi data mahasiswa seperti pada tampilan berikut ini (file data dapat diunduh di sini).

Selanjutnya dari data CSV di atas, bagaimana cara membuat rekap jumlah data mahasiswa berdasarkan gendernya menggunakan Python? Untuk melakukan hal ini cukup mudah, salah satu tekniknya adalah menggunakan dictionary.

Continue reading “Teknik Membuat Rekap Data dengan Dictionary Python”

Fungsi dan Cara Membuat Scatter Plot di Python

Dalam visualisasi data menggunakan grafik, scatter plot sering digunakan untuk melihat hubungan antara 2 variabel data. Secara definisi, scatter plot adalah visualisasi data secara dua dimensi yang menggunakan titik untuk merepresentasikan nilai dari dua variabel.

Hubungan antara dua variabel ini, atau istilahnya adalah korelasi, bisa dilihat melalui scatter plot. Jenis korelasi yang mungkin terjadi adalah positif, negatif, atau tidak ada korelasi.

Continue reading “Fungsi dan Cara Membuat Scatter Plot di Python”