DATA MINING 3 [Analisis Sentiment Masyarakat terhadap Kasus Covid-19 pada Media Sosial Youtube dengan Metode Naive bayes]
- Urgensi dalam Penelitian ini yaitu sebagai berikut.
Perkembangan kasus Covid-19 di Indonesia terus mengalami kenaikan. Kenaikan
ini dipicu oleh berbagai hal contohnya tingkat kepercayaan masyarakat terhadap
adanya penyakit/virus COVID-19. Dengan terus adanya kenaikan kasus ini
menyebabkan kepanikan di tengan masyarakat dengan ada dan tidaknya virus corona
ini, di tengah kondisi ini di perlukan pola komunikasi yang efektif dan efisien
dalam memberikan edukasi dan informasi tentang virus corona ini contohnya
dengan media sosial Youtube. Banyak tangapan masyarakat tentang pemberitaan ini
yang di ungkapkan di kolom komentar.oleh karena itu di butuhkan suatu model
sentiment analisis untuk megklasifikasikan komentar masyarakat menjadi Positif,
Negatif dan netral.
a. Pengumpulan
data
Dalam penelitian ini data di peroleh
dari kolom komentar pemberitaan youtube di chanel kompasTV. Pengambilan data
menggunakan tools yang di sediakan aplikasi Google Crome yang bernama Data
miner
b. Text
Preprocessing
Tahap ini bisa juga di sebut tahap
pembangunan data. Di tahap ini data akan memasuki beberapa proses diantaranya:
- Tokennize
yaitu tahap pemotongan string atau kalimat menjadi satuan kata.
- Cleaning
proses pembersihan karakter selain huruf, menghapus username atau mentions (@),
hastag (#), dan menghapus ling atau URL dari setiap komentar.
- Stemming
merupakan proses mengubah kata berimbuhan menjadi kata dasar.
- Transform
Cases adalah tahap mengubah semua huruf kapital mejadi huruf kecil.
c. Labeling
Data
yaitu tahap pengelompokan data menjadi 3 bagian yaitu Positif,
Negatif, dan Netral berdasarkan nilai sekor sentiment. Sekor sentiment
dihasilkan berdasarkan kamus sentiment positif dan negatif yang sudah banyak di
gunakan.
d. Naive
bayes Naive bayes
Merupakan salah satu metode
klasifikasi yang menggunakan perhitungan probabilitas, dalam metode ini
menggunakan statistik berdasarka teorema bayes yang mengasumsikan keberadan dan
ketiadaan dari suatu kelas dengan fitur lainnya
- Proses Naive bayes dalam memberikan solusi dari permasalahan yang ada
Data yang di ambil adalah sekumpulan
data komentar dari beberapa video youtube pemberitaan perkembangan kasus
Covid-19 di indonesia yang di publikasi di bulan januari yang di muat di chanel
Kompastv berjumlah 28 buah file microsoft axcel, 1.651 komentar mentah.
b. Text
Preprocessing
- Tokennize
adalah tahapan pemotongan string input berdasarkan kata, atau bisa disebut juga
pemecahan kalimat menjadi potongan kata. Dalam tahap ini juga melkukan
pembersihan karakter karakter tertentu seperti tanda baca.
- Cleaning
proses pembersihan karakter selain huruf, menghapus username atau mentions (@),
hastag (#), dan menghapus ling atau URL dari setiap komentar.
c. Labeling
Data
Data yang sudah siap selanjutnya akan masuk ke tahap labeling yaitu tahap
pengelompokan data menjadi 3 bagian yaitu Positif, Negatif, dan Netral
berdasarkan nilai sekor sentiment. Sekor sentiment dihasilkan berdasarkan kamus
sentiment positif dan negatif yang sudah banyak di gunakan.
|
Negatif |
Positif |
Netral |
|
800 |
361 |
490 |
d. Validasi
K-Fold Cross
Validation Pada tahap Validasi ini bertujuan untuk mengukur dan
mengevaluasi kinerja sebuah algoritma. Di tahap ini juga data akan di bagi menjadi
dua subset yaitu data Training dan data Testing, namun pada tahap ini hanya
melibatkan dua data set saja yaitu data yang berlabel Positif dan Negatif
sedangkan data yang berlabel Netral tidak diikutsertakan karena akan lebih
fokus ke komentar positif dan negatif saja . Pembagian data ini menggunakan
perbandingan 1 : 3 .pada data Training diberikan 75% dari keseluruhan data
yaitu berjumlah 871 data. Seangakan untuk data Testing diberikan persentase
data 25% data dari keseluruhan data sebanyak 290 dari keseluruhan data.
Pada tahap ini juga data akan di
bagi menjadi 10 Fold yang di mana data akan dilakukan randomasi data agar tidak
menjadi pengelompokan data.
e. Akurasi
Setelah melaluai seluruh tahapan
yang ada dari pengambilan data, text Preprocessing, labeling data, dan yang
terakhit tahap validasi, didapatkan nilai akurasi dari algoritma yang di
gunakan yaitu Naive bayes menghasilkan tingkat akurasi yang cukup baik yaitu
sebesar 74%.
- Saran
Karena dalam Penelitian Sebelumnya, banyak peneliti yang
menggunakan beberapa Metode seperti KNN dan lain lain, namun dari semua metode,
Algoritma Naïve Bayes yang mendapatkan nilai akurasi yang lebih tinggi dan
menjanjikan. Jadi saya rasa tidak ada saran untuk penelitian ini.
Komentar
Posting Komentar