Halo Sobat Reas.. sudah sering sering dengar kan istilah Data Science ? dalam kesempatan kali ini penulis akan sharing sedikit tentang data science dilihat dari pendekatan ilmu statistika. Harvard Business Review menjuluki Data Scientist sebagai “The Sexiest Job of The 21st Century”, dan juga laman popular yaitu LinkedIn menempatkan Data Science dalam “Top 10 most in demands skill”.
Pasti pernah mendengar yang namanya quick-count kan ? dimana pengambilan kesimpulan yang sangat cepat, bayangkan kita dapat mengetahui hasil dari pemilu dalam kurun waktu kurang lebih satu jam. Pernah gak sih membayangkan google predictive search bekerja?, bagaimana Spotify membuat personal playlist dengan menebak lagu yang kita suka?, bagaimana Netflix menebak film apa yang kita suka?, dan juga bagaimana Facebook dan Instagram bisa mengurutkan linimasa kita berdasarkan konten/preferensi kita?. Nah, semua itu dilatarbelakangi oleh statistika.
Ada banyak persepsi umum yang beredar tentang statistika, yaitu :
Cabang dari matematika
Ilmu yang mempelajari tentang data
Peluang / probabilitas
nahh… akhir-akhir ini makin banyak yang mengaitkan dengan Data Science
Data Science bukanlah bidang ilmu yang berdiri sendiri, namun terdapat beberapa bidang ilmu yang penting untuk melandasi data science itu sendiri, antara lain:
Matematika / Statistika
Programming
dan yang terakhir yaitu Keahlian. “You’ll need to be a Specialist, not a Generalist!”.
Keahlian pada bidang tertentu ini sangatlah menentukkan ke mana arah seorang data scientist akan lebih spesifik terhadap bidang yang digelutinya. Jadi jangan heran jika di era modern sekarang banyak data scientist yang lahir dari berbagai disiplin ilmu (contoh : bisnis, finance, psikologi, economics, dll).
Sumber: https://codeup.com/what-is-data-science/
Sebelum kita melajutkan diskusi, apabila diantara kalian masih ada yang bingung antara istilah statistik dan statistika, yuk kita pelajari definisinya…
- Statistik : merupakan kumpulan data yang bisa memberikan gambaran tentang suatu keadaan atau masalah tertentu, biasanya disusun dan disajikan dalam bentuk daftar, tabel, diagram atau bentuk lainnya agar mudah dipahami.
- Statistika : adalah Ilmu yang mempelajari tentang statistik. Bagaimana mengumpulkan, mengelola, menganalisis, menyajikan, hingga menarik kesimpulan atas data.
Bila dilihat berdasarkan metode penggunaannya, maka statistika dibagi dalam dua jenis yaitu statistika deskriptif dan statistika inferensi yang sudah dijelaskan pada chapter sebelumnya. ( https://www.indonesiare.co.id/id/article/statistika-inferensi-parametrik-vs-non-parametrik ).
Kenapa sih statistika diperlukan? Statistika pada umumnya mempelajari masa lalu/pengalaman sebagai logika pengambilan keputusan di masa depan. Banyak contoh yang kita lakukan sehari-hari misalkan: kita bisa memprediksi hari ini hujan atau tidak berdasarkan hari sebelumnya; atau kita bisa memprediksi restaurant atau cafe favorit kita itu ramai pada jam dan hari tertentu berdasarkan pengalaman sebelumnya.
Tanpa kita sadari, contoh-contoh aplikasi statistika pada kehidupan sehari-hari yang disebutkan diatas, merupakan bagian dari keilmuan data science, untuk itu mari kita elaborate lebih dalam terkait flow data science itu sendiri. Secara umum flow data science terdiri dari 5 tahapan :
1. Data Collection : suatu proses pengumpulan data yang dimana dapat menggunakan data primer (observasi langsung) maupun sekunder (mengambil dari sumber tertentu).
2. Data Exploration : memahami karakteristik data tersebut sehingga dapat menentukkan model analisis yang tepat (contoh : data cross section tentu berbeda perlakuan estimasinya jika dibanding dengan data time series).
3. Model Training and Testing : tidak jarang dalam model statistika diperlukan suatu proses simulasi (contoh : iterasi dalam monte carlo sebanyak n-kali agar hasilnya konvergen)
4. Model Visualization and Interpretation : penyajian model dalam bentuk dashboard interaktif yang mencakup keseluruhan alur pengerjaan.
5. Model Implementation : implementasi model secara luas.
Okeiy, dari pemaparan ini dapat disimpulkan bahwa statistika sangat berperan penting dalam setiap tahapan flow data science. Tanpa statistika, implementasi model dalam perencanaan bisnis tidak dapat berjalan dengan baik karena statistika sangat menentukkan proses decision making.