DATA MINING 3 [Analisis Sentiment Masyarakat terhadap Kasus Covid-19 pada Media Sosial Youtube dengan Metode Naive bayes]

  • Urgensi dalam Penelitian ini yaitu sebagai berikut.
Perkembangan kasus Covid-19 di Indonesia terus mengalami kenaikan. Kenaikan ini dipicu oleh berbagai hal contohnya tingkat kepercayaan masyarakat terhadap adanya penyakit/virus COVID-19. Dengan terus adanya kenaikan kasus ini menyebabkan kepanikan di tengan masyarakat dengan ada dan tidaknya virus corona ini, di tengah kondisi ini di perlukan pola komunikasi yang efektif dan efisien dalam memberikan edukasi dan informasi tentang virus corona ini contohnya dengan media sosial Youtube. Banyak tangapan masyarakat tentang pemberitaan ini yang di ungkapkan di kolom komentar.oleh karena itu di butuhkan suatu model sentiment analisis untuk megklasifikasikan komentar masyarakat menjadi Positif, Negatif dan netral.
  • Proses metodologi penelitian yang ditempuh yaitu:
a. Pengumpulan data
Dalam penelitian ini data di peroleh dari kolom komentar pemberitaan youtube di chanel kompasTV. Pengambilan data menggunakan tools yang di sediakan aplikasi Google Crome yang bernama Data miner

b. Text Preprocessing
Tahap ini bisa juga di sebut tahap pembangunan data. Di tahap ini data akan memasuki beberapa proses diantaranya:
- Tokennize yaitu tahap pemotongan string atau kalimat menjadi satuan kata.
- Cleaning proses pembersihan karakter selain huruf, menghapus username atau mentions (@), hastag (#), dan menghapus ling atau URL dari setiap komentar.
- Stemming merupakan proses mengubah kata berimbuhan menjadi kata dasar.
- Transform Cases adalah tahap mengubah semua huruf kapital mejadi huruf kecil.

c. Labeling Data
yaitu tahap pengelompokan data menjadi 3 bagian yaitu Positif, Negatif, dan Netral berdasarkan nilai sekor sentiment. Sekor sentiment dihasilkan berdasarkan kamus sentiment positif dan negatif yang sudah banyak di gunakan.

d. Naive bayes Naive bayes
Merupakan salah satu metode klasifikasi yang menggunakan perhitungan probabilitas, dalam metode ini menggunakan statistik berdasarka teorema bayes yang mengasumsikan keberadan dan ketiadaan dari suatu kelas dengan fitur lainnya
  • Proses Naive bayes dalam memberikan solusi dari permasalahan yang ada
a. Pengumpulan Data
Data yang di ambil adalah sekumpulan data komentar dari beberapa video youtube pemberitaan perkembangan kasus Covid-19 di indonesia yang di publikasi di bulan januari yang di muat di chanel Kompastv berjumlah 28 buah file microsoft axcel, 1.651 komentar mentah.

b. Text Preprocessing
- Tokennize adalah tahapan pemotongan string input berdasarkan kata, atau bisa disebut juga pemecahan kalimat menjadi potongan kata. Dalam tahap ini juga melkukan pembersihan karakter karakter tertentu seperti tanda baca.
- Cleaning proses pembersihan karakter selain huruf, menghapus username atau mentions (@), hastag (#), dan menghapus ling atau URL dari setiap komentar.
Stemming merupakan proses mengubah kata berimbuhan menjadi kata dasar.


Transform Cases adalah tahap mengubah semua huruf kapital mejadi huruf kecil
c. Labeling Data
Data yang sudah siap selanjutnya akan masuk ke tahap labeling yaitu tahap pengelompokan data menjadi 3 bagian yaitu Positif, Negatif, dan Netral berdasarkan nilai sekor sentiment. Sekor sentiment dihasilkan berdasarkan kamus sentiment positif dan negatif yang sudah banyak di gunakan.

Negatif

Positif

Netral

800

361

490

Hasil Labeling Data sbb.

d. Validasi K-Fold Cross
Validation Pada tahap Validasi ini bertujuan untuk mengukur dan mengevaluasi kinerja sebuah algoritma. Di tahap ini juga data akan di bagi menjadi dua subset yaitu data Training dan data Testing, namun pada tahap ini hanya melibatkan dua data set saja yaitu data yang berlabel Positif dan Negatif sedangkan data yang berlabel Netral tidak diikutsertakan karena akan lebih fokus ke komentar positif dan negatif saja . Pembagian data ini menggunakan perbandingan 1 : 3 .pada data Training diberikan 75% dari keseluruhan data yaitu berjumlah 871 data. Seangakan untuk data Testing diberikan persentase data 25% data dari keseluruhan data sebanyak 290 dari keseluruhan data.

Pada tahap ini juga data akan di bagi menjadi 10 Fold yang di mana data akan dilakukan randomasi data agar tidak menjadi pengelompokan data.

e. Akurasi
Setelah melaluai seluruh tahapan yang ada dari pengambilan data, text Preprocessing, labeling data, dan yang terakhit tahap validasi, didapatkan nilai akurasi dari algoritma yang di gunakan yaitu Naive bayes menghasilkan tingkat akurasi yang cukup baik yaitu sebesar 74%.

  • Saran
Saran dari saya kepada masyarakat dalam kasus kenaikan Covid-19 ini, Untuk memperketat kembali protokol kesehatan dengan memakai masker, mencuci tangan, menjaga jarak, ditambah menghindari kerumunan dan mengurangi perjalanan yang tidak perlu. Karena interaksi sosial yang tinggi ditambah tidak disiplin menjalankan protokol kesehatan meningkatkan transmisi virus sehingga mendorong lonjakan kasus.
Karena dalam Penelitian Sebelumnya, banyak peneliti yang menggunakan beberapa Metode seperti KNN dan lain lain, namun dari semua metode, Algoritma Naïve Bayes yang mendapatkan nilai akurasi yang lebih tinggi dan menjanjikan. Jadi saya rasa tidak ada saran untuk penelitian ini.



Komentar

Postingan populer dari blog ini

Memanfaatkan Blog Di Esensialitas Era Digital

DATA MINING 1 [Penerapan K-Means dalam Efektivitas Pembelajaran E-Learning pada Masa Pandemi Covid-19]