AI TEXT-TO-SPEECH BARU GOOGLE SANGAT BAGUS KAMI BERTARUH ANDA TIDAK BOLEH MENGATAKANNYA DARI MANUSIA SEBENAR

Bolehkah anda membezakan perbezaan antara ucapan komputer yang dihasilkan oleh AI dan manusia hidup yang sebenar? Mungkin anda selalu berfikir bahawa anda boleh. Mungkin anda menyukai Alexa dan Siri tetapi percayalah bahawa anda tidak akan membingungkan kedua-duanya dengan wanita yang sebenarnya.

Perkara akan menjadi lebih menarik. Jurutera Google telah berusaha keras untuk membuat sistem teks-ke-pertuturan yang dipanggil Tacotron 2 . Menurut a kertas mereka menerbitkan bulan ini, sistem pertama membuat spektrogram teks, gambaran visual tentang bagaimana ucapan itu harus dibunyikan. Gambar itu dimasukkan melalui algoritma WaveNet Google yang ada, yang menggunakan gambar untuk menghasilkan ucapan manusia yang sangat semula jadi.

berapa umur tammy bradshaw

Dengan menggunakan kaedah ini, para penyelidik melaporkan, 'Model kami mencapai skor pendapat min (MOS) 4.53 setanding dengan MOS 4.58 untuk ucapan yang direkodkan secara profesional.' (Skor pendapat yang bermaksud ialah istilah telekomunikasi yang mengukur seberapa nyata sesuatu yang benar-benar hidup.)

Seperti yang ditunjukkan oleh sampel audio Google, Tacotron 2 dapat mengesan dari konteks perbezaan antara kata nama 'gurun' dan kata kerja 'padang pasir', begitu juga kata benda 'hadir' dan kata kerja 'hadir', dan mengubah sebutannya dengan sewajarnya. Ia dapat memberi penekanan pada kata-kata besar dan menggunakan infleksi yang tepat ketika mengajukan soalan daripada membuat pernyataan.

Dan ia dapat menghasilkan teks yang terdengar serupa dengan ucapan manusia sehingga sukar atau mustahil untuk mengetahui perbezaannya. Sekiranya anda ingin melihat betapa sukarnya, pergi ke Google halaman sampel audio , dan tatal ke bawah ke kumpulan sampel terakhir, bertajuk 'Tacotron 2 atau Manusia?' Di sana anda akan menjumpai Tacotron 2 dan orang yang masing-masing mengatakan kalimat seperti, 'Gadis itu membuat video mengenai gincu Star Wars.'

PERHATIAN SPOILER: Untuk menguji diri anda, dengarkan sampel dan teka yang mana sebelum membaca bahagian lajur ini.

Oleh itu, sampel yang manakah teks-ke-pertuturan dan yang manakah suara manusia yang sebenarnya? Jurutera Google tidak mengatakan tetapi mereka meninggalkan petunjuk yang sangat besar. Setiap sampel fail .wav mempunyai nama fail yang mengandungi istilah 'gen' atau 'gt.' Berdasarkan makalah tersebut, sangat mungkin 'gen' menunjukkan pertuturan yang dihasilkan oleh Tacotron 2, dan 'gt' adalah ucapan manusia yang sebenar. ('GT' mungkin bermaksud 'kebenaran dasar', istilah pembelajaran mesin yang pada dasarnya bermaksud 'kesepakatan sebenarnya.')

Dengan andaian ini betul, berikut adalah jawapan untuk ujian: