안녕하세요 Tacotron 제 2 장입니다.
전에 있는 것을 읽지 못하셨다면 먼저 읽고 와 주세요.
https://startagainbornagain.tistory.com/28
Tacotron제 1 장
안녕하세요 여러분 오랜만 입니다~ 다시 타코트론으로 찾아뵙네요 그럼 오늘도 열심히 달려볼까요? 혹시 전에 올린 타코트론의 관한 글을 아직 안 읽으셨다면 https://startagainbornagain.tistory.com/22?categor..
startagainbornagain.tistory.com
오늘은 WaveNet과 타코트론 이론에대해 설명하겠습니다.
WaveNet 은 원시 오디오를 생성하기위한 심층 신경망 입니다. 그것은 런던의 인공 지능 회사 DeepMind의 연구원들에 의해 만들어졌습니다 2016년 논문에서 설명하는 기술은, 상대적으로 사실적인 사운드를 생성 할 수 있습니다 인간과 같은 사용하여 직접 모델링 파형에 의해 목소리 신경망 실제 음성의 녹음과 훈련 방법을. 미국 영어와 만다린을 사용한 테스트에 따르면이 시스템은 Google 최고의 기존 TTS ( text-to-speech ) 시스템보다 성능이 뛰어나지 만 2016 년 현재 텍스트 음성 변환은 여전히 실제 사람의 음성보다 덜 설득력이 있습니다. 원시 파형을 생성하는 WaveNet의 기능은 음악을 포함한 모든 종류의 오디오를 모델링 할 수 있음을 의미합니다.(위키피디아:https://en.wikipedia.org/wiki/WaveNet)
무슨 말이냐고 하신다면 이 신경망을 이용한다면 사람이 내는 목소리를 자세하게 특징 하나하나 인공지능이 알 수 있게 하고 그 목소리 데이터를 낼 수 있게 해줍니다.
즉 우리가 하려고 하는 타코트론에서 중요한 역할을 한다는 것이죠
마침 잘 표현된 그림(?)이라고 해야할까요 아래 그림을 보시죠
네 타코트론2를 간단하게 나타낸다면 이런 모습입니다 Encoder에서 attention으로 attention에서 Decoder로 Decoder에서 WaveNet으로 말로 설명해드리면 먼저 Text를 읽고 Attention으로 기억하고 분석하여 미리 목소리 데이터로 학습한 WaveNet에게 Speech를 어떻게 높낮이를 낼지 특징을 만들어낼지 WaveNet에서 결정한다고 생각하시면 됩니다.
죄송합니다 작년안에 끝낸다는 것이 여러가지 사정으로 지금 마무리하게 되었네요 다음 Tacotron2 제 3 장에서는 실제로 구현해보도록 하겠습니다. 그럼 이만
'인공지능 > 딥러닝' 카테고리의 다른 글
타코트론 제 3 장 (2) | 2020.01.21 |
---|---|
Tacotron제 1 장 (1) | 2019.12.27 |
Attention의 이해와 Encoder, Decoder(Tacotron을 들어가기 전에) (0) | 2019.09.19 |
Tacotron에 관해서.... (0) | 2019.08.22 |