Indonesia merupakan negara multi-kultural yang memiliki beragam bahasa daerah yang mencerminkan budaya, identitas bangsa, nilai dan aset yang sangat berharga. Bahasa Banjar merupakan salah satu bahasa daerah yang banyak digunakan oleh suku Banjar di daerah Kalimantan Selatan, Kalimantan Timur, Kalimantan Tengah, Jambi, Kepulauan Riau dan Riau. Bahasa Banjar ini dapat dilestarikan dengan memanfaatkan teknologi Text-to-Speech (TTS). Teknologi TTS ini dapat membantu masyarakat Banjar yang memiliki kesulitan membaca seperti tuna netra atau disleksia. Pengimplementasian TTS ini menggunakan metode Variational Inference with adversarial learning for end-to-end Text-to-Speech (VITS) yang mengadopsi Variational Autoencoder (VAE). VITS adalah model sintesis suara end-to-end yang memprediksi gelombang suara berdasarkan urutan teks masukan. VITS merupakan metode yang dapat menghasilkan kualitas suara yang lebih baik dan natural dibandingkan metode lainnya. Pada penelitian ini menggunakan 250 data latih dan 50 data uji yang berasal dari pengumpulan data, perekaman dan cleaning data secara manual. Data yang sudah di cleaning dilakukan proses training dengan menggunakan metode VITS sehingga didapat model terbaiknya. Model tersebut di aplikasikan untuk data uji dan dilakukan pengujian kualitas suara dengan Mean Opinion Score (MOS). Hasil dari penelitian ini mendapatkan nilai MOS sebesar 3.604 yang menandakan bahwa pengguna menganggap kualitas ucapan sudah baik.
Kata kunci : Bahasa Banjar, Mean Opinion Score, Text-to-Speech, VITS