Kumpulan Proyek untuk Belajar Data Science bagi Pemula

belajar data science
Photo by ThisIsEngineering from Pexels

Apakah saat ini kamu sedang giat-giatnya untuk belajar data science? Tidak hanya mempelajari teori dan pengetahuan dari berbagai sumber, pembelajaran secara praktik juga penting untuk meningkatkan kemampuan sebagai seorang Data Scientist. Untuk mencapai tujuan pembelajaran yang efektif, salah satu cara yang bisa kamu lakukan adalah mengerjakan berbagai proyek di bidang data science. Setelah dirasa punya pengetahuan yang luas dan mendalam mengenai topik tertentu, kamu perlu mengeksekusi model belajar ini secara maksimal.

Proyek data science tidak hanya memberikan pengalaman belajar yang lebih intensif. Kamu dapat menjadi individu yang lebih menonjol diantara calon profesional lain yang ingin terjun ke lapangan kerja. Apalagi, proyek-proyek belajar yang berhasil kamu selesaikan dapat menjadi bekal portofolio yang berguna bagi proses pelamaran kerja untuk kali pertama. Ketika kamu belum memiliki pengalaman sebagai Data Scientist, kamu harus benar-benar mampu mengerjakan proyek secara aktif dan  independen (Towards Data Science).

Tapi, apakah kamu masih kebingungan harus mengerjakan proyek seperti apa? Meskipun masih pemula, kamu bisa mengerjakan berbagai proyek yang berbobot dan bermanfaat untuk kemajuan karier mendatang. Selain itu, kamu dapat mengembangkan proyek secara bertahap untuk mempraktikkan ilmu-ilmu yang sudah ada. Simak daftar proyek pembelajaran data science yang dapat kamu kerjakan sebagai pemula di bawah ini.

Proyek Belajar Data Science untuk Pemula

Prediksi harga saham

Prediksi pasar saham menjadi bidang yang sangat menarik bagi investor sejak dulu. Setiap hari, perdagangan uang terjadi di bursa saham dan melibatkan berbagai upaya dari para investor untuk dapat membuat keputusan terbaik. Apabila investor berhasil memprediksi pergerakan pasar secara akurat, mereka dapat memperoleh keuntungan yang signifikan. Dengan pemanfaatan machine learning dan Python, seorang investor dapat melakukan prediksi harga saham secara otomatis. Kamu perlu mempersiapkan Python library berikut untuk proyek yang satu ini:

  • import numpy as np
  • import pandas as pd
  • from sklearn import preprocessing
  • from sklearn.model_selection import train_test_split
  • from sklearn.linear_model import LinearRegression

Berikut langkah-langkah yang dapat kamu lakukan untuk mengerjakan proyek prediksi harga saham setelah mengimpor Python libraries:

  • Tuliskan fungsi persiapan data set agar dapat memasukkannya ke dalam model Linear Regression secara lebih mudah
  • Baca data yang bersangkutan
  • Siapkan tiga variabel input untuk menyebutkan kolom yang ingin diprediksi. Variabel berikutnya berdasarkan sejauh mana prediksi data terjadi. Sedangkan, variabel terakhir adalah ukuran dari test set
  • Saatnya mengaplikasikan machine learning ke dalam perhitungan harga saham. Bagi data dan masukkan ke dalam model Linear Regression
  • Prediksi output kemudian cek harga saham yang muncul

BACA JUGA: Langkah Belajar Python untuk Data Science

Pengenalan angka dari tulisan tangan

Merupakan kemampuan komputer untuk mengenali angka yang berasal dari tulisan tangan manusia. Tugas ini cukup rumit bagi mesin karena setiap tulisan tangan punya ciri khas dan bentuknya masing-masing. Selain itu, tulisan tangan berupa angka juga memiliki karakter dan selera penulisan yang beragam. Kamu akan menggunakan konsep deep learning menggunakan MNIST data set. Perlu kamu ketahui bahwa data set ini populer di kalangan penggemar deep learning dan machine learning. 

MNIST data set sudah mencakup 60.000 gambar digit dari tulisan tangan mulai angka 0 sampai 9 serta 10.000 data untuk proses testing. Gambar dari digit tulisan tangan akan direpresentasikan sebagai matriks 28×28 dengan setiap sel berisi grayscale pixel value. Prosedur yang dapat kamu lakukan untuk proyek belajar data science ini, antara lain:

  • Impor libraries dan muat data set yang dibutuhkan. Sebuah library bernama Keras sudah memiliki MNIST data set untuk memudahkan pengerjaan. Pakai metode mnist.load_data() yang mencakup data pelatihan dan data testing disertai pengujian masing-masing.
  • Mengulang pemrosesan data untuk mempersiapkan neural network sekaligus mengumpankan data gambar secara langsung menuju model. Dimensi dari pelatihan data adalah (60000,28,28). Dibutuhkan satu matriks lagi untuk membentuknya menjadi (60000,28,28,1).
  • Lanjutkan ke tahap pembuatan model CNN ke dalam proyek data science Python. Model CNN biasanya terdiri dari pooling dan convutional. CNN lebih baik dalam hal klasifikasi gambar karena mampu mempresentasikan data dalam struktur grid. Kompilasi model dilakukan dengan optimasi Adadelta.
  • Fungsi model.fit() dari library Keras bisa melewati proses pelatihan. Selain itu, kamu juga membutuhkan data validation, epoch, serta batch size. Setelah beberapa waktu pelatihan, kamu dapat menyimpannya dengan definisi model ke dalam file ‘mnist.h5’.
  • Terdapat 10.000 gambar dalam kumpulan data yang akan digunakan untuk mengevaluasi seberapa baik model tersebut bekerja. MNIST data set bersifat seimbang dan memiliki tingkat akurasi hingga 99%.
  • Lakukan pembuatan GUI untuk melakukan prediksi angka. Dalam aspek GUI, kamu dapat membuat file baru untuk membangun jendela interaktif. Tujuannya untuk menggambar angka di atas kanvas dan mengenali angka dengan suatu button. Gunakan fungsi predict_digit() yang mengambil gambar sebagai input kemudian menggunakan model terlatih dalam memproduksi digit.

BACA JUGA: Pilih Mana? Bootcamp Programmer vs Belajar Otodidak

Text summarization

Text summarization merupakan proses untuk membuat ringkasan dokumen tertentu berisi informasi penting seperti aslinya. Tujuannya mendapatkan ringkasan atau poin-poin utama dari suatu dokumen. Proyek yang satu ini menggunakan machine learning pada Python sebagai basis pemrograman terkait. Mengapa menggunakan machine learning untuk menyusun text summarization? Karena kamu akan mengurangi referensi teks ke dalam bentuk yang lebih kecil sembari merangkum makna dan pengetahuan di dalamnya. Awali dengan mengimpor Python libraries berikut:

  • import nltk
  • import string
  • from heapq import nlargest

Dalam proyek ini, kamu tidak perlu menggunakan banyak machine learning. Teks dapat diringkas dengan mudah tanpa menggunakan pelatihan model. Meskipun begitu, kamu tetap membutuhkan beberapa pemrosesan secara alami. Untuk itulah diperlukan NLTK dengan Python library. Lanjutkan dengan beberapa langkah penghapusan tanda baca dan pemrosesan dari teks tersebut. Tandai teks kemudian periksa hasil peringkasan dengan Python. Kode yang muncul akan memberikan ringkasan teks sesuai keinginan ke dalam variabel teks.

Beberapa proyek di atas dapat kamu gunakan untuk belajar data science dalam mengeksekusi praktik kemampuan secara langsung. Ketika sudah punya bekal pengetahuan dan teori yang mendukung praktik data science, manfaatkan waktu pembelajaran yang ada untuk menghasilkan produk-produk penunjang karier sebagai seorang Data Scientist andal di dunia kerja.

Ingin menjadi seorang Data Scientist profesional dan dibekali dengan praktik proyek intensif selama proses pembelajaran? Belajar sekarang di SkolaClass Data Science dan jadilah Data Scientist siap kerja hanya dalam 3,5 bulan.


Leave a Reply

Your email address will not be published. Required fields are marked *