Main Article Content
Abstract
Menurut survey yang dilakukan oleh Microsoft pada tahun 2020, Indonesia menjadi negara dengan kesopanan digital paling buruk di Asia Pasifik. Hal tersebut dibuktikan dengan naiknya angka Digital Civility Index 8 poin dari tahun 2019 menjadi 76 poin. Oleh sebab itu, diperlukannya sistem yang dapat membantu masyarakat Indonesia untuk dapat berkomunikasi secara sopan di dunia digital. Hal tersebut menginspirasi penelitian ini untuk membangun sistem deep learning untuk mengubah kalimat menjadi sopan. Metode yang digunakan penelitian ini adalah Tag and Generate Approach; model tagger untuk menggantikan token tag pada kata yang terdapat di kalimat tidak sopan dan model generator untuk menggantikan token tag tersebut dengan kata yang sesuai sehingga menjadi kalimat yang sopan. Sebelum melakukan pelatihan model tagger, setiap n-gram (penelitian ini menggunakan jangkauan unigram sampai bigram) dilakukan penghitungan rasio tf-idf untuk mengetahui peringkat persentil dan relevansi n-gram pada masing-masing gaya teks. Dapat disimpulkan bahwa kata "mengapa" dan "kalo" menduduki peringkat persentil unigram tertinggi, sedangkan kata "bagaimana ini" dan "ya min" mendapatkan peringkat persentil tertinggi bigram pada masing-masing gaya teks. Hasil akhir evaluasi model mencapai nilai tertinggi pada BLEU 1 dengan nilai 53.48 dan disusul oleh BLEU 2 sebesar 40.30. Sedangkan, untuk metrik BLEU 3, BLEU 4, dan METEOR masih tertinggal jauh dibandingkan kedua metrik tersebut (BLEU 1 dan BLEU 2) dengan nilai masing-masing 31.2, 24.5, dan 26.2. Berdasarkan hasil tersebut, dapat disimpulkan bahwa model mencapai skor tertinggi pada content preservation pada unigram dan bigram.
Keywords
Text Style Transfer
Politeness Transfer
Tag and Generate Approach
Deep Learning