DubWise: Video-Guided Speech Duration Control in Multimodal LLM-based Text-to-Speech for Dubbing

Model Architecture

Example 1: Input Text: यह अभिक्रिया निर्देशांक अभिक्रिया प्रगति हैं, जो कुछ सेकंड या एक शून्य वर्षो मैं जा सक्ति हैं।

Input English Reference Video

Proposed DubWise

XTTS+WSOLA

YourTTS

Example 2: Input Text: समय के एक कार्य के रूप में एकाग्रता अधिक तेजी से बढ़ रही है, और पहले के समय में संतुलन प्राप्त कर रही है।

Input English Reference Video

Proposed DubWise

XTTS+WSOLA

YourTTS

Example 3: Input Text: अब एक परमाणु, जैसा की आप जानते हैं, सबसे छोटा कण हैं जो किसी तत्व के गुणों को बरकरार रखता है

Input English Reference Video

Proposed DubWise

XTTS+WSOLA

YourTTS

Example 4: Input Text: तो फिर नाभिक में और क्या है?

Input English Reference Video

Proposed DubWise

XTTS+WSOLA

YourTTS

Example 1: Input Text: So if you know few bond energies, you can calculate the entropy for lot of reactions.

Input English Reference Video

Proposed DubWise

XTTS+WSOLA

YourTTS

Fastspeech2

HPMDub

Example 2: Input Text: So you can just, instead of looking at 10 to the minus 10 you can say what's the.

Input English Reference Video

Proposed DubWise

XTTS+WSOLA

YourTTS

Fastspeech2

HPMDub

Example 3: Input Text: So I can measure current flow in Ams in an electronic cell that forces galvanic cell.

Input English Reference Video

Proposed DubWise

XTTS+WSOLA

YourTTS

Fastspeech2

HPMDub