Manipulasi Data dengan “dplyr” (Part2)

MATIIN LAUGIWA PRAWIRA PUTRA
3 min readDec 31, 2019

--

Assalamu’alaikum Warahmatullahi Wabarakaatuh

Hallo reader! kali ini penulis akan sharing sedikit tentang manipulasi data menggunakan dplyr seperti yang sebelumnya telah dijelaskan di (Part 1) langsung aja kita ke Part 2 nya oke !

7. Group_by

Fungsi group_bymerupakan suatu fungsi yang digunakan untuk mengelompokan data berdasarkan satu atau lebih dari satu variabel.

Misal mengelompokan County dan ingin melihat rata- rata setiap County yang ada di amerika menggunakan fungsi group_by

Maka terlihat bahwa pada County yang kita tuju dengan nama yang sama, maka akan terlihat total County dan rata rata nilai Max.AQI nya.

8. Sampling

Fungsi sampling digunkan ketika penulis ingin mengambil sampel secara random dari dataset sesuai dengan n yang ditentukan. Ada juga sample_frac() yang digunakan untuk sample sesuai besaran presentase yang ditentukan

Misal penulis ingin mengambil sample secara random sebanyak 100 observasi pada dataset

Maka terlihat hanya 100 observasi yang di Tarik secara randeom menggunkana fungsi sampling.

9. Count

Fungsi count()ini digunakan untk mengetahui jumlah data berdasarkan kategori variabel yang di tentukan oleh penulis

Misal penulis inigin tahu sebenarnya ada berapa sih data di State Alabama dan yang lain?

Maka telihat ternyata di Alabama terdapat 53 observasi mengenai dataset Air Pollution ini, dan State yang lainnya juga seperti itu

10. Arrange

Fungsi arrange() merupakan fungsi favorit penulis nih karena arrange() ini dapat menyortir berdasarkan nilai terbesar mauput terkecil.

Misal penulis ingin melihat sebenarnya tingkat jumlah Max.AQI tertinggi di Amerika berdasarkan State itu apasih?

Maka akan muncul nilai Max.AQI yang sudah dijumlahkan dan diurutkan berdasarkan nilai terbesar

11. Join

Funsi ini digunkan untuk menggabungkan dua tabel yang berbeda. Variansi fungsi ini terdiri dari left_joint(), right_join(), inner_join() dan full_join()

Misal penulis ingin menggabungkan dua tabel berbeda berdasarkan Main.Pollutant

Maka dapat di lihat bhawa kedua tabel telah di gabung berdasarkan Main.Pollutant

Referensi

Reference:
1. https://www.analisis-data.com/2017/11/bekerja-dengan-packages-dplyr-di-r.html
2.https://muhammadilhammubarok.wordpress.com/2018/05/01/manipulasi-data-dengan-librarydplyr-di-r/
3. https://www.computerhope.com/jargon/d/datamani.htm
4. https://www.youtube.com/watch?v=niB5A8qa88I

--

--