Bagaimana cara AI megkloning suara kita
.
.
.
A thread
Pernah kebayang gak sih, tiba-tiba ada rekaman suara yang viral, tapi kita ngerasa gak pernah ngomongin hal tersebut. Eitsss jangan salah mungkin bisa jadi suaramu dikloning dan dibuat sintesisnya pake AI yang satu ini.
Gimana, mirip nggak tuhhh? kalo kalian ngiranya itu dari 1 orang yang sama, kalian salah, karena suara 2 merupakan hasil rekayasa AI dari suara orang pertama.
Keren kan? Tapi tunggu dulu, untuk menghasilkan suara yang sangat mirip itu, AI ini cuman butuh dengerin suara kita cuman 5 detik loh.
Nah sebelum bahas gimana algoritma untuk menghasilkan suara buatan itu, kita harus tau nih kalo algoritma itu dibangun berdasarkan transfer learning. Hmmm itu apa ya min?
Transfer learning ini dalam kata lain adalah menggunakan model ML yang udah “dilatih” untuk membuat algoritma kita yang baru.
Gunanya apa sih transfer learning ini? Nah secara gampang, kita pasti lebih mudah ngajarin motor ke orang yang udah pernah naik sepeda kann dibandingkan mereka yang belum pernah belajar kendaraan sama sekali
Transfer learning mempermudah kita untuk membuat model ML yang kita inginkan karena kita menggunakan model yang udah pernah “dilatih” dengan hal yang mirip dengan yang ingin kita buat. Jadi bisa hemat waktu dan tenaga deh
Apa hubungannya sih minn sama kloning suara? So, algoritma untuk mensintesa suara ini menggunakan transfer learning dari algoritma sebelumnya yang udah terlatih untuk mendeteksi suara orang secara spesifik
Berangkat dari model ML yang terlatih itu, akhirnya dibangunlah suatu model baru yang bisa mengkloning suara, yuk sini absen yang mau lanjut !
Untuk menghasilkan suara kloningan yang sangat mirip dan bahkan bisa kita tentuin sendiri kalimatnya, perlu 3 tahapan arsitektur yang harus dilalui oleh sistem AI ini
Pertama, Encoder speaker. Sebelum digunakan AI dilatih dengan mendengarkan banyaak banget ribuan contoh suara untuk diambil intisarinya dan dicari polanya dari ribuan suara orang
Eh tapi pelatihan itu hanya dilakukan sekali ajaa yaa, setelah itu bisa deh 5 detik niruin suara karena udah terlatih. Encoder speaker ini dilatih dengan menggunakan neural network.
Kedua, kita tentuin teks yang kita inginkan dan memasukkan sumber suara. Di sini kita akan input sumber suaranya kemudian AI akan memberikan Mel spectogram. yaitu representasi dari sumber suara dan intonasi seseorang yang ingin kita kloning.
Ini contoh mel spectogram dari 3 suara, yang kiri sumber suara dari orang yang ingin kita kloning, dan yang kanan adalah hasil suara kloningannya.
Setelah kedua tahap itu dilewati, kita udah dapet nih mel spectogram yang akan nunjukin gimana suara yang akan dihasilkan. Teknik ini biasanya disebut dengan DeepMind’s Tacotron 2 technique
Apakah cukup sampai disana? Belum dongg, kan kita gatau suaranya seperti apa dan otak kita gak bisa nebak suara dari spectogram.
Karena itu, kita butuh tahap ke tiga, yaitu neural vocoder yang akan ngerubah semua hasil data tadi ke menjadi suara sesuai yang kita inginkan
Teknik untuk penerapan komponen ini dinamakan DeepMind’s WaveNet technique. Jadinya neural vocoder akan memberikan output berupa gelombang (waveform) supaya bisa kita dengerin. Dan.. voila! Jadilah suara kloningan yang kita inginkan!
Eh beneran? Semudah itu? Eits jangan salah yaa, meskipun udah tau tahapannya, ada langkah terakhir yang masih harus diperhatiin supaya tahapan itu gak salah
Kok nambah lagi siih? Tadi katanya cuman 3? Iyaah cuman tiga kokk
Jadi tahapan ini hanya untuk evaluasi menghitung kesesuaian dari AI kloningan yang kita buat, karena kita juga harus bisa mengidentifikasi dong kalo AI nya ternyata gak mirip dan kenapa kok bisa sesuai
Hal pertama yang harus diperhatikan adalah data apa yang digunakan untuk ngelatih si AI nya ini
Karena ternyata, jika AI dilatih dengan ribuan data yang berbeda dari yang sebelumnya, kemudian diinput referensi yang sama, hasilnya akan beda lho. Jadi bagaimana AI dilatih ini sangat penting diperhatikan, tergantung bagaimana referensi yang cocok
Lebih gampangnya, kalo kita ingin mengkloning suara dengan berbahasa dan intonasi manusia Indonesia, hasilnya akan kurang tepat jika AI kita latih dengan ribuan suara berbahasa dengan logat enggres, ya kan?
Kedua, kita juga harus bisa tau gimana cara menghitung kemiripan dan score nya berapa sih jika dibandingin sama yang asli
Hal itu penting karena kita bisa tau nih, berapa sih batas minimal supaya suara kloningan itu bisa dikatakan mirip dengan aslinya
Nah, selain itu, ada tahap verifikasi untuk mengetes apakah hasil kloningan itu lolos untuk uji suara manusia. Kalo suaranya mirip tapi intonasinya macem robot kan aneh juga yah hehe
Nah untuk lebih detailnya lagi, semua itu bisa kalian akses di paper yang dipublikasikan di sini yaah
Gimana, keren yaa AI inii? Kalian gak perlu galau lagi deh karena sekarang kalian bisa nyuruh AI niruin suara doi buat bilang “I love you too” hehehe. Eits, kalau bingung cara buat AI niruin suaranya gimana, mending belajar machine learning dulu di Pacmann.AI!
Di program Data Scientist, kalian bakal diajarin dari basic loh. Dan setelah itu kalian juga bisa bangun portfolio dengan fasilitas project lab, alias ga cuma belajar teori doang! Kalau kalian udah ga sabar buat nyuruh AI niruiin suara doi, daftar aja di bit.ly/PendaftaranNon…
Kalo gitu, sekian thread kali ini ya friends! Sampai ketemu di thread-thread selanjutnya!
• • •
Missing some Tweet in this thread? You can try to
force a refresh
LOWONGAN PEKERJAAN
Business Development [FULL TIME, REMOTE]
PACMANN Group adalah sebuah perusahaan konsultan data dengan fokus pada business optimization menggunakan modeling Operation Research, Statistics dan Machine Learning.
Selain itu kami juga membuat berbagai pelatihan Business Intelligence, Statistics, Machine Learning, dan Operation Research.
Saat ini kami sedang berencana untuk mengekspansi lini bisnis kami sehingga kami membutuhkan Business Development untuk membantu kami dalam menstandarisasi operasional lini bisnis baru, dan pengembangan Business Process.
Gimana caranya mesin memahami bahasa manusia?
.
.
.
A Thread
Komunikasi adalah suatu hal yang paling esensial dalam kehidupan manusia. Tidak dipungkiri setiap hari kita melakukan komunikasi baik kepada keluarga, teman, tetangga, maupun sahabat
Tapi kebayang ga sih hidup tanpa komunikasi, pasti bakal sulit banget untuk mengerti maksud lawan bicara kita. Apalagi kalau yang pacaran.. pasti bisa berantem terus dehh
Siapa bilang sosiolog ga bisa nyentuh quantitative research?
Interview with Zahra Amalia @zahraamalias
.
.
.
A thread
Berkarir sebagai Qualitative Researcher di Unit Riset Tim Nasional Percepatan Penanggulangan Kemiskinan (TNP2K) sembari melanjutkan studi S3 di bidang sosiologi di University of California San Diego, Zahra tidak membatasi dirinya terhadap penelitian kualitatif saja.
Sebagai seorang Qualitative Researcher, Zahra bertugas untuk mencari topik untuk menjawab sebuah pertanyaan. Topik yang biasa Zahra kerjakan adalah isu politik. Bagi Zahra, politik tidak hanya sebatas partai dan politikus, melainkan tentang power atau kuasa.
Mendeteksi Retakan Bangunan dengan Machine Learning
.
.
.
A Thread
Pernah ga sih kalian ketika melihat gedung, jembatan, atau menara terus mikir “wow ini keren banget, pasti bikinnya susah plus ribet deh”?
Namun kita juga harus inget, pembangunan itu ga selesai sampe tahap akhir konstruksi doang. Setelah bangunannya selesai, pastinya harus di maintain terus biar ga rusak
Mau nilai bagus? Jangan baca buku doang!
Eksperimen belajar di online course
.
.
.
A thread
Haloo semuanyaa! Gimanaa weekendnya, udah refreshing biar seger lagi buat kerja / kuliah besok?
Hari ini, mimin mau bahas tentang cara belajar yang efektif untuk menguasai sebuah materi atau skill. Di thread ini, mimin mau bahas special case nih, yaitu case belajar menggunakan Massive Open Online Course (MOOC)