DubWise: Video-Guided Speech Duration Control in Multimodal LLM-based Text-to-Speech for Dubbing

Model Architecture

DubWise Architecture
Proposed Method: Tokenized reference-speaker audio and text form the model's prompt (ground truth audio included during training only). Lip region video is fed through cross-attention. HiFi-GAN generates speech from the output.

Cross-Lingual TTS Examples

Example 1: Input Text: यह अभिक्रिया निर्देशांक अभिक्रिया प्रगति हैं, जो कुछ सेकंड या एक शून्य वर्षो मैं जा सक्ति हैं।
Input English Reference Video
Proposed DubWise
XTTS+WSOLA
YourTTS
Example 2: Input Text: समय के एक कार्य के रूप में एकाग्रता अधिक तेजी से बढ़ रही है, और पहले के समय में संतुलन प्राप्त कर रही है।
Input English Reference Video
Proposed DubWise
XTTS+WSOLA
YourTTS
Example 3: Input Text: अब एक परमाणु, जैसा की आप जानते हैं, सबसे छोटा कण हैं जो किसी तत्व के गुणों को बरकरार रखता है
Input English Reference Video
Proposed DubWise
XTTS+WSOLA
YourTTS
Example 4: Input Text: तो फिर नाभिक में और क्या है?
Input English Reference Video
Proposed DubWise
XTTS+WSOLA
YourTTS

Non-Paralle TTS Examples

Example 1: Input Text: So if you know few bond energies, you can calculate the entropy for lot of reactions.
Input English Reference Video
Proposed DubWise
XTTS+WSOLA
YourTTS
Fastspeech2
HPMDub
Example 2: Input Text: So you can just, instead of looking at 10 to the minus 10 you can say what's the.
Input English Reference Video
Proposed DubWise
XTTS+WSOLA
YourTTS
Fastspeech2
HPMDub
Example 3: Input Text: So I can measure current flow in Ams in an electronic cell that forces galvanic cell.
Input English Reference Video
Proposed DubWise
XTTS+WSOLA
YourTTS
Fastspeech2
HPMDub