Audio Demo for MuLanTTS: The Microsoft Speech Synthesis System for
Blizzard Challenge 2023
Abstract
In this paper, we present MuLanTTS, the Microsoft end-to-end neural text-to-speech (TTS) system designed for the Blizzard Challenge 2023. About 50 hours of audiobook corpus for French TTS as hub task and another 2 hours of speaker adaptation as spoke task is released to build synthesized voices for different test purposes including sentences, paragraphs, homographs, lists, etc. Building upon DelightfulTTS, we adopt contextual and emotion encoders to adapt the audiobook data to enrich beyond sentences for long-form prosody and dialogue expressiveness. Regarding the recording quality, we also apply denoise algorithms and long audio processing for both corpora. For the hub task, only the 50-hour single speaker data is used for building the TTS system, while for the spoke task, a multi-style source model is used for target speaker fine-tuning. MuLanTTS achieves mean scores of quality assessment 4.3 and 4.5 in the respective tasks, statistically comparable with natural speech while keeping good similarity according to similarity assessment. The excellent quality and similarity in this year's new and dense statistical evaluation show the effectiveness of our proposed system in both tasks.
Author
Zhihang Xu, Shaofei Zhang, Xi Wang, Jiajun Zhang, Wenning Wei, Lei He, Sheng Zhao
GT: orignal wave
TTS: synthesized wave
OOD: out of domain, which is our submission and has no recording
Samples in Track1 FH1
Long Sentence
¬ Soit , dit Kin-Fo en approchant d'une lumière le léger papier , mais , à présent , ô mon cher coeur ! permettez à votre mari d'embrasser tendrement sa femme et de la supplier de présider ce bienheureux repas . Je me sens en disposition d'y faire honneur !
GT
TTS
Long Sentence
Pierre Morlaix , mêlé à la multitude des assistants , prêtait une oreille avide à l'exposé de ce tissu d'horreurs , exposé fait d'un ton froid , parfois railleur , et toujours animé par le pittoresque de l'expression .
GT
TTS
Paragraph Sentence
¬ Eh bien , donc , avant tout , répondit Lé-ou , ainsi que vous en avez témoigné le très légitime désir , déchirez-la , brûlez-la , anéantissez-la , cette lettre imprudente ! Qu'il ne reste rien du Kin-Fo qui l'avait écrite ! ¬ Soit , dit Kin-Fo en approchant d'une lumière le léger papier , mais , à présent , ô mon cher coeur ! permettez à votre mari d'embrasser tendrement sa femme et de la supplier de présider ce bienheureux repas . Je me sens en disposition d'y faire honneur !
GT
TTS
OOD Sentence
L'aéronef fit un crochet à droite pour éviter les hautes tours de l'Observatoire et de la grande usine électrique du mont Valérien, puis d'un seul bond au-dessus du quartier industriel de Nanterre, elle arriva au tournant de la Seine.
TTS
OOD Sentence
Les trois jeunes filles prirent place dans l'ascenseur qui les mit à terre en une minute. L'hôtel Ponto et Compagnie n'était pas loin; on apercevait à peu de distance le belvédère de son pavillon central pointant au-dessus d'un épais massif d'arbres.
TTS
Samples in Track2 FS1
Short Sentence
Nous revenons ainsi au débat précédent .
J'ai deux fois des cadeaux à noël .
Elle n'est nullement une laïcité de conflit , de combat .
GT
TTS
Long Sentence
Quant à sa hauteur , Ned Land , malgré sa grande taille , ne put la mesurer .
Et Conseil , de sa voix tranquille , raconta pour la troisième fois les diverses péripéties de notre histoire .
Il faut cependant mentionner un carnet et une montre que Gédéon Spilett , avait conservée par mégarde sans doute , mais pas une arme , pas un outil , pas même un couteau de poche .
GT
TTS
Exclamation & Question
Mais , pour Dieu , qu'est-ce qu'il peut bien y avoir là dedans !
Toutes les grandes actions remontent à Dieu , car elles viennent de lui ! Capitaine Nemo , les honnêtes gens qui sont ici , eux que vous avez secourus , vous pleureront à jamais !
Ne vous ai-je pas dit que dans mes voyages j'avais toujours remarqué de la variété ? Le Saturien répliqua à toutes ces raisons .
GT
TTS
OOD Sentence
Les mots ont leur importance, monsieur le rapporteur.
Je crois qu'on atteint là un summum!
Fait-elle seulement mention de la personne de confiance?