VECL-TTS:Voice Identity and Emotional Style Controllable Cross-Lingual Text-to-Speech Synthesis

Model Architecture

DubWise Architecture
Figure 1. The bock diagram of proposed VECL-TTS model. Contributions are highlighted via red dotted box.

Demo Samples with Text

Text Normal Anger Sad
Ref Audio VECL Ref Audio VECL Ref Audio VECL
I cannot believe she has been admonished
कुतुबमिनार जगातील सर्वाधिक उंच मिनार आहे.
I cannot believe she has been admonished
సూర్యప్రభ వాహనంలో,అమ్మవారి దర్శనంతో ఆరోగ్యం, ఐశ్వర్యం, సత్సంతానం, సుజ్ఞానం లభిస్తుందని,భక్తుల విశ్వాసం.
I cannot believe she has been admonished
ర్యప్రభ వాహనంలో,అమ్మవారి దర్శనంతో ఆరోగ్యం, ఐశ్వర్యం, సత్సంతానం, సుజ్ఞానం లభిస్తుందని,భక్తుల విశ్వాసం.
ర్యప్రభ వాహనంలో,అమ్మవారి దర్శనంతో ఆరోగ్యం, ఐశ్వర్యం, సత్సంతానం, సుజ్ఞానం లభిస్తుందని,భక్తుల విశ్వాసం.

Demo Samples

Reference YourTTs VECL-TTS Ablation 1 Ablation 2