Bagaimana cara AI megkloning suara kita
.
.
.
A thread
Pernah kebayang gak sih, tiba-tiba ada rekaman suara yang viral, tapi kita ngerasa gak pernah ngomongin hal tersebut. Eitsss jangan salah mungkin bisa jadi suaramu dikloning dan dibuat sintesisnya pake AI yang satu ini.
Sebelumnya, apasih itu dikloning ? nah kita dengerin dulu 2 contoh rekaman ini
a. suara 1 (drive.google.com/file/d/1CXO_3_…)
b. suara 2 (drive.google.com/file/d/1anTYb4…)
Gimana, mirip nggak tuhhh? kalo kalian ngiranya itu dari 1 orang yang sama, kalian salah, karena suara 2 merupakan hasil rekayasa AI dari suara orang pertama.
Keren kan? Tapi tunggu dulu, untuk menghasilkan suara yang sangat mirip itu, AI ini cuman butuh dengerin suara kita cuman 5 detik loh.
Nah sebelum bahas gimana algoritma untuk menghasilkan suara buatan itu, kita harus tau nih kalo algoritma itu dibangun berdasarkan transfer learning. Hmmm itu apa ya min?
Transfer learning ini dalam kata lain adalah menggunakan model ML yang udah “dilatih” untuk membuat algoritma kita yang baru.
Gunanya apa sih transfer learning ini? Nah secara gampang, kita pasti lebih mudah ngajarin motor ke orang yang udah pernah naik sepeda kann dibandingkan mereka yang belum pernah belajar kendaraan sama sekali
Transfer learning mempermudah kita untuk membuat model ML yang kita inginkan karena kita menggunakan model yang udah pernah “dilatih” dengan hal yang mirip dengan yang ingin kita buat. Jadi bisa hemat waktu dan tenaga deh
Apa hubungannya sih minn sama kloning suara? So, algoritma untuk mensintesa suara ini menggunakan transfer learning dari algoritma sebelumnya yang udah terlatih untuk mendeteksi suara orang secara spesifik
Berangkat dari model ML yang terlatih itu, akhirnya dibangunlah suatu model baru yang bisa mengkloning suara, yuk sini absen yang mau lanjut !
Untuk menghasilkan suara kloningan yang sangat mirip dan bahkan bisa kita tentuin sendiri kalimatnya, perlu 3 tahapan arsitektur yang harus dilalui oleh sistem AI ini
Pertama, Encoder speaker. Sebelum digunakan AI dilatih dengan mendengarkan banyaak banget ribuan contoh suara untuk diambil intisarinya dan dicari polanya dari ribuan suara orang
Eh tapi pelatihan itu hanya dilakukan sekali ajaa yaa, setelah itu bisa deh 5 detik niruin suara karena udah terlatih. Encoder speaker ini dilatih dengan menggunakan neural network.
Kedua, kita tentuin teks yang kita inginkan dan memasukkan sumber suara. Di sini kita akan input sumber suaranya kemudian AI akan memberikan Mel spectogram. yaitu representasi dari sumber suara dan intonasi seseorang yang ingin kita kloning.
Ini contoh mel spectogram dari 3 suara, yang kiri sumber suara dari orang yang ingin kita kloning, dan yang kanan adalah hasil suara kloningannya.
Setelah kedua tahap itu dilewati, kita udah dapet nih mel spectogram yang akan nunjukin gimana suara yang akan dihasilkan. Teknik ini biasanya disebut dengan DeepMind’s Tacotron 2 technique
Apakah cukup sampai disana? Belum dongg, kan kita gatau suaranya seperti apa dan otak kita gak bisa nebak suara dari spectogram.
Karena itu, kita butuh tahap ke tiga, yaitu neural vocoder yang akan ngerubah semua hasil data tadi ke menjadi suara sesuai yang kita inginkan
Teknik untuk penerapan komponen ini dinamakan DeepMind’s WaveNet technique. Jadinya neural vocoder akan memberikan output berupa gelombang (waveform) supaya bisa kita dengerin. Dan.. voila! Jadilah suara kloningan yang kita inginkan!
Eh beneran? Semudah itu? Eits jangan salah yaa, meskipun udah tau tahapannya, ada langkah terakhir yang masih harus diperhatiin supaya tahapan itu gak salah
Kok nambah lagi siih? Tadi katanya cuman 3? Iyaah cuman tiga kokk
Jadi tahapan ini hanya untuk evaluasi menghitung kesesuaian dari AI kloningan yang kita buat, karena kita juga harus bisa mengidentifikasi dong kalo AI nya ternyata gak mirip dan kenapa kok bisa sesuai
Hal pertama yang harus diperhatikan adalah data apa yang digunakan untuk ngelatih si AI nya ini
Karena ternyata, jika AI dilatih dengan ribuan data yang berbeda dari yang sebelumnya, kemudian diinput referensi yang sama, hasilnya akan beda lho. Jadi bagaimana AI dilatih ini sangat penting diperhatikan, tergantung bagaimana referensi yang cocok
Lebih gampangnya, kalo kita ingin mengkloning suara dengan berbahasa dan intonasi manusia Indonesia, hasilnya akan kurang tepat jika AI kita latih dengan ribuan suara berbahasa dengan logat enggres, ya kan?
Kedua, kita juga harus bisa tau gimana cara menghitung kemiripan dan score nya berapa sih jika dibandingin sama yang asli
Hal itu penting karena kita bisa tau nih, berapa sih batas minimal supaya suara kloningan itu bisa dikatakan mirip dengan aslinya
Nah, selain itu, ada tahap verifikasi untuk mengetes apakah hasil kloningan itu lolos untuk uji suara manusia. Kalo suaranya mirip tapi intonasinya macem robot kan aneh juga yah hehe
Nah untuk lebih detailnya lagi, semua itu bisa kalian akses di paper yang dipublikasikan di sini yaah

arxiv.org/abs/1806.04558
Gimana, keren yaa AI inii? Kalian gak perlu galau lagi deh karena sekarang kalian bisa nyuruh AI niruin suara doi buat bilang “I love you too” hehehe. Eits, kalau bingung cara buat AI niruin suaranya gimana, mending belajar machine learning dulu di Pacmann.AI!
Di program Data Scientist, kalian bakal diajarin dari basic loh. Dan setelah itu kalian juga bisa bangun portfolio dengan fasilitas project lab, alias ga cuma belajar teori doang! Kalau kalian udah ga sabar buat nyuruh AI niruiin suara doi, daftar aja di bit.ly/PendaftaranNon…
Kalo gitu, sekian thread kali ini ya friends! Sampai ketemu di thread-thread selanjutnya!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Follow us on instagram: @pacmannai

Follow us on instagram: @pacmannai Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @pacmannai

17 Mar
LOWONGAN PEKERJAAN
Business Development [FULL TIME, REMOTE]

PACMANN Group adalah sebuah perusahaan konsultan data dengan fokus pada business optimization menggunakan modeling Operation Research, Statistics dan Machine Learning.
Selain itu kami juga membuat berbagai pelatihan Business Intelligence, Statistics, Machine Learning, dan Operation Research.
Saat ini kami sedang berencana untuk mengekspansi lini bisnis kami sehingga kami membutuhkan Business Development untuk membantu kami dalam menstandarisasi operasional lini bisnis baru, dan pengembangan Business Process.
Read 4 tweets
17 Mar
Gimana caranya mesin memahami bahasa manusia?
.
.
.
A Thread
Komunikasi adalah suatu hal yang paling esensial dalam kehidupan manusia. Tidak dipungkiri setiap hari kita melakukan komunikasi baik kepada keluarga, teman, tetangga, maupun sahabat
Tapi kebayang ga sih hidup tanpa komunikasi, pasti bakal sulit banget untuk mengerti maksud lawan bicara kita. Apalagi kalau yang pacaran.. pasti bisa berantem terus dehh
Read 38 tweets
16 Mar
Siapa bilang sosiolog ga bisa nyentuh quantitative research?
Interview with Zahra Amalia @zahraamalias
.
.
.
A thread
Berkarir sebagai Qualitative Researcher di Unit Riset Tim Nasional Percepatan Penanggulangan Kemiskinan (TNP2K) sembari melanjutkan studi S3 di bidang sosiologi di University of California San Diego, Zahra tidak membatasi dirinya terhadap penelitian kualitatif saja.
Sebagai seorang Qualitative Researcher, Zahra bertugas untuk mencari topik untuk menjawab sebuah pertanyaan. Topik yang biasa Zahra kerjakan adalah isu politik. Bagi Zahra, politik tidak hanya sebatas partai dan politikus, melainkan tentang power atau kuasa.
Read 32 tweets
15 Mar
Mendeteksi Retakan Bangunan dengan Machine Learning
.
.
.
A Thread
Pernah ga sih kalian ketika melihat gedung, jembatan, atau menara terus mikir “wow ini keren banget, pasti bikinnya susah plus ribet deh”?
Namun kita juga harus inget, pembangunan itu ga selesai sampe tahap akhir konstruksi doang. Setelah bangunannya selesai, pastinya harus di maintain terus biar ga rusak
Read 32 tweets
14 Mar
"Gimana cara mengembangkan produk Machine Learning di dalam perusahaan?”
.
.
.
A Thread
Hai gaiss siapa yang disini udah familiar dengan machine learning
Mimin kali ini akan bahas apa aja sihh yang dibutuhin buat mengembangkan produk machine learning di perusahaan, yuk simak!
Read 37 tweets
14 Mar
Mau nilai bagus? Jangan baca buku doang!
Eksperimen belajar di online course
.
.
.
A thread
Haloo semuanyaa! Gimanaa weekendnya, udah refreshing biar seger lagi buat kerja / kuliah besok?
Hari ini, mimin mau bahas tentang cara belajar yang efektif untuk menguasai sebuah materi atau skill. Di thread ini, mimin mau bahas special case nih, yaitu case belajar menggunakan Massive Open Online Course (MOOC)
Read 34 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!