Portofolio Data Scientist: Rekomendasi untuk Job Seeker

Portofolio Data Scientist
Photo by Carl Heyerdahl on Unsplash

Apa saja upaya yang sudah kamu lakukan untuk mendapatkan pekerjaan sebagai seorang Data Scientist? Satu kesalahan yang sampai saat ini masih sering dilakukan banyak orang adalah menguasai wawasan dan keterampilan data science, tetapi tidak punya portofolio. Padahal, portofolio Data Scientist mampu menjadi bukti bahwa keterampilan yang kamu miliki dapat menjadi prospek kontribusi bagi perusahaan. Dengan portofolio, kamu menunjukkan kemampuanmu dalam mengemban tanggung jawab praktis dalam peran sebagai data scientist. Hal inilah yang sangat penting untuk diperhatikan.

Perekrut ingin melihat kemampuan yang kuat ketika mencari kandidat calon tenaga kerja data science. Tetapi, hal ini tidak selalu mudah untuk ditunjukkan melalui proses wawancara. Keberadaan portofolio merupakan penguat keahlian yang akan membantu kamu dalam meraih pekerjaan tersebut. Selain memberikan peluang satu tingkat lebih jauh, ternyata pengerjaan portofolio dapat menjadi ajang yang mendukung pembelajaran di bidang ini. Dengan begitu, pengalaman pembelajaran jadi jauh lebih berkesan untuk dilalui.

David Yakobovitch mengungkapkan bahwa portofolio harus dimiliki ketika kamu berada di tahap wawancara. Hal ini berguna untuk menunjukkan pengalaman di dunia nyata sekaligus menjelaskan workflow data science kepada perekrut saat itu juga. Simak daftar pilihan portofolio yang dapat kamu kerjakan melalui penjelasan di bawah ini.

Pilihan Portofolio Data Scientist

Data storytelling

Proyek portofolio yang satu ini akan mendemonstrasikan kemampuanmu dalam melakukan ekstraksi insight data dan melakukan proses persuasi kepada orang lain. Hal ini mempunyai dampak besar bagi kemajuan bisnis perusahaan. Proyek ini melibatkan pengambilan sebuah dataset kemudian menceritakan narasi menarik lewat materi tersebut. Storytelling sebaiknya juga didukung dengan visualisasi agar pembaca mampu memahami dan melihat seluruh tahapan analisis. Berikut langkah-langkah yang harus kamu lakukan untuk membangun portofolio terbaik:

  • Temukan dataset yang menarik. Pilihlah salah satu yang paling relevan dan menarik bagi pembaca. Alternatif lainnya adalah memilih topik sesuai minat dan kemampuan di bidang yang paling dominan agar hasilnya maksimal
  • Jelajahi berbagai sudut pandang dalam data. Lakukan identifikasi korelasi yang menarik kemudian buat charts dan tunjukkan hasil temuan menurut langkah-langkah analisis tersebut
  • Tuliskan narasi yang memikat berdasarkan hasil eksplorasi yang telah dilakukan. Masukkan cerita yang sudah kamu jalani selama mencari dataset hingga memperoleh simpulan dan temuannya. Buat bagan yang menarik perhatian, namun tetap mudah dipahami sebagai penunjang storytelling
  • Presentasikan hasil tersebut menggunakan notebook Jupyter atau R Markdown untuk melakukan analisis. Jelaskan proyek selengkap mungkin kemudian unggah hasil akhir menuju GitHub

BACA JUGA: Data Science adalah Ilmu Kompleks? Simak Penjelasannya!

Machine learning

Salah satu keterampilan yang mampu meningkatkan peluang untuk memperoleh pekerjaan di dunia data science adalah kelancaran mengerjakan machine learning. Sebelum mempelajari machine learning yang cukup kompleks, ada baiknya kamu menguatkan dasar-dasarnya terlebih dahulu. Terkadang, kesalahan pemula adalah cenderung melewatkan ilmu-ilmu dasar yang dapat menguatkan pembelajaran tahap berikutnya. Dalam aspek machine learning, pastikan kamu mengerjakan proyek portofolio yang mencakup materi dasar, seperti regression, algoritma, hingga clustering. Selebihnya, berikut contoh-contoh proyek yang dapat kamu kerjakan:

  • Prediksi pinjaman berdasarkan data
  • Klasifikasi genre musik
  • Prediksi harga rumah
  • Handwritten character recognition
  • Translasi pidato menuju teks dan sebaliknya

Data cleaning

Pengerjaan portofolio data science di bidang data cleaning akan menunjukkan bahwa kamu dapat mengambil dan memahami sekumpulan data yang berbeda. Inilah yang akan dilakukan oleh sebagian besar Data Scientist dan menjadi keterampilan penting untuk ditunjukkan kepada perekrut. Proyek ini melibatkan data yang berantakan untuk mendapatkan eksekusi data cleaning dan proses analisis. Selain itu, proyek ini dapat membuktikan bahwa kamu punya kemampuan nalar mengenai data. Berikut yang harus kamu lakukan:

  • Temukan messy data atau kumpulan data yang berantakan. Pastikan kamu memilih data dengan banyak file dan nuance. Jangan lupa sesuaikan juga dengan minat data yang ingin dikerjakan secara pribadi
  • Pilih pertanyaan yang harus terjawab menggunakan data tersebut. Lakukan eksplorasi dan tentukan sudut pandang paling menarik
  • Lakukan data cleaning dengan menyatukan beberapa file data yang ada. Sudut pandang yang telah ditentukan harus relevan dengan data
  • Lanjutkan dengan analisis dasar dengan menjawab pertanyaan yang muncul sebelumnya
  • Presentasikan hasilnya secara maksimal. Jelaskan sumber data bila ingin memasukkan hasilnya menuju git repository 

Data collection

Data collection dan pre-processing adalah salah satu keterampilan esensial di bidang data science. Di dalam dunia kerja, peran seorang Data Scientist akan melibatkan data collection dan data cleaning melalui Python. Seusai memahami kebutuhan bisnis dalam pembangunan proyek, kamu perlu memperoleh akses menuju data yang relevan di internet. Hal ini dapat terjadi dengan menggunakan API atau web scraper. Sesudah itu, data yang melewati proses cleaning akan disimpan dalam data frame menuju format input model machine learning. Aspek yang satu ini memakan waktu cukup lama sehingga harus dikuasai dengan baik. Selesaikan proyek portofolio berikut ini:

  • Web scraping kursus online

Setiap orang yang ingin belajar lewat kursus online tentu ingin mendaftarkan diri menuju program terbaik. Namun kenyataannya, ada ratusan bahkan ribuan kursus online berdasarkan bidang atau topik tertentu. Kebanyakan orang ingin mendapatkan kursus gratis atau paling tidak menawarkan harga yang terjangkau, namun mempunyai rating yang bagus. Lakukan web scraping kemudian masukkan hasilnya ke data frame. Buat visualisasi yang berisi daftar harga dan peringkat untuk menemukan kursus sesuai kebutuhan, terjangkau, serta berkualitas. Kamu akan menjatuhkan pilihan berdasarkan overall sentiment tertinggi.

  • Web scraping situs food review

Proyek yang satu ini tergolong menarik dan praktis untuk mengisi ruang portofolio ketika melamar kerja sebagai Data Scientist. Buat web scraper untuk mengumpulkan seluruh informasi seputar review dari seluruh halaman situs. Simpan ke dalam data frame. Selain itu, kamu juga dapat menggunakan pengumpulan data bagi pembangunan model analisis. Lanjutkan dengan pengklasifikasian review yang positif dan negatif. Dengan begitu, kamu dapat memilih tempat makan yang direkomendasikan secara lebih mudah.

BACA JUGA: Kumpulan Proyek untuk Belajar Data Science bagi Pemula

Exploratory data analysis

Setelah mengumpulkan dan menyimpan data, kamu perlu melakukan aktivitas analisis terhadap seluruh variabel di dalam data frame. Kamu harus mampu memahami distribusi dari setiap variabel dan memahami hubungan satu sama lain. Bahkan, setiap pertanyaan yang muncul bisa dijawab menggunakan ketersediaan pengumpulan data. Pekerjaan ini akan dilakukan melebihi predictive modelling. Berikut contoh proyek portofolio data science yang dapat kamu kerjakan:

  • The World Happiness Report

The World Happiness Report melacak adanya enam faktor untuk mengukur kebahagiaan global, yaitu ekonomi, harapan hidup, dukung sosial, kebebasan, kemurahan hati, serta ketiadaan kasus korupsi. Proyek ini dapat membantu meningkatkan keahlian sebagai seorang analis di bidang data science. Beberapa pertanyaan yang dapat menjadi sumber analisis, antara lain:

  • Negara manakah yang paling bahagia di dunia?
  • Apa faktor penting yang berkontribusi terhadap kebahagiaan suatu bangsa?
  • Apakah kebahagiaan secara keseluruhan menunjukkan penurunan atau peningkatan?
  • Identifikasi faktor penyakit jantung

Dataset yang digunakan mencakup beberapa faktor prediksi, seperti diabetes, kolesterol, usia, hingga riwayat keluarga yang diprediksi menjadi pemicu penyakit jantung. Gunakan Python atau R dalam menganalisis hubungan yang ada. Berikan jawaban atas kumpulan pertanyaan di bawah ini:

  • Apakah pasien dengan diabetes lebih berpeluang terkena penyakit jantung sejak dini?
  • Apakah ada kelompok demografis tertentu yang berisiko lebih tinggi terkena penyakit jantung ketimbang kelompok lainnya?
  • Apakah sering berolahraga mampu menurunkan risiko terjadinya penyakit jantung?
  • Apakah perokok lebih mungkin punya risiko lebih besar terkena penyakit jantung daripada individu bukan perokok?

Itulah berbagai pilihan topik proyek yang dapat kamu kerjakan sebagai portofolio data science. Beragam variasi topik tersebut mampu membantu membuktikan dan menunjukkan keahlian sebagai seorang profesional di jenjang karier menjadi Data Scientist. Kerjakan semaksimal mungkin kemudian presentasikan kemampuanmu di hadapan para rekruter.

Ingin membangun portofolio terbaik bersama para ahli di industri data science untuk mewujudkan impian sebagai Data Scientist? Belajar sekarang di Bootcamp Data Science dan dapatkan pengalaman belajar secara intensif selama 3 bulan.