Fungsi dan Cara Membuat Scatter Plot di Python

Sharing is caring!

Dalam visualisasi data menggunakan grafik, scatter plot sering digunakan untuk melihat hubungan antara 2 variabel data. Secara definisi, scatter plot adalah visualisasi data secara dua dimensi yang menggunakan titik untuk merepresentasikan nilai dari dua variabel.

Hubungan antara dua variabel ini, atau istilahnya adalah korelasi, bisa dilihat melalui scatter plot. Jenis korelasi yang mungkin terjadi adalah positif, negatif, atau tidak ada korelasi.

Suatu korelasi dikatakan positif jika titik-titik yang ada dalam scatter plot tersusun secara naik dari kiri bawah sampai kanan atas dari bidang plot. Dua variabel berkorelasi positif memiliki makna bahwa semakin besar nilai suatu variabel, maka berakibat semakin besar pula nilai variabel yang lain. Perhatikan contoh scatter plot berikut iniĀ  (diambil dari chartio.com) yang menunjukkan hubungan antara tinggi badan dengan berat badan dari beberapa data anak yang diteliti.

Berdasarkan scatter plot tersebut, tampak bahwa titik-titik tersebar dan tersusun dalam pola naik ke atas (dari kiri bawah hingga kanan atas). Sehingga dari data tersebut dapat disimpulkan bahwa semakin besar tinggi badan berakibat semakin besar pula berat badannya.

Namun sebaliknya, apabila titik-titik pada scatter plot tersusun dalam bentuk pola menurun (dari kiri atas ke kanan bawah) maka kedua variabel berkorelasi negatif. Artinya bahwa semakin besar nilai suatu variabel maka semakin mengecil nilai variabel yang lainnya. Perhatikan contoh gambar berikut ini (diambil dari TexasGateway.org)

Gambar di atas menunjukkan scatter plot antara data jarak lari yang ditempuh selama sepekan dengan berat badan. Berdasarkan gambar tersebut, tampak bahwa titik-titik terpola menurun dari kiri atas sampai kanan bawah. Sehingga dapat disimpulkan bahwa untuk data tersebut, kedua variabel ini berkorelasi negatif. Artinya bahwa semakin besar jarak tempuh lari, semakin mengecil berat badan orang tersebut.

Sedangkan apabila di dalam scatter plot posisi titik-titik tidak beraturan dan tidak membentuk pola naik atau turun maka kedua variabel tidak ada hubungan korelasi. Perhatikan contoh berikut ini (diambil dari assistancedogseurope.info)

Setelah mengetahui apa itu scatter plot dan manfaatnya, selanjutnya bagaimana membuat scatter plot di Python? Berikut ini adalah rangkaian perintah di Python untuk membuat scatter plot dari sebuah dataset file csv (HackerNewsPost.csv). File dataset ini berisi postingan yang ada di situs Hacker News.

Berdasarkan dataset tersebut, akan dilihat apakah ada korelasi antara jumlah komentar dari sebuah postingan dengan nilai point yang didapat.