Spaces:

Pendrokar
/

xVASynth-TTS

Running on CPU Upgrade

App Files Files Community

Pendrokar commited on Mar 10, 2024

Commit

b975979

1 Parent(s): 317535b

lojban v2 voice model

Browse files

Files changed (3) hide show

README.md +3 -1
app.py +9 -3
gr_client.py +36 -5

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 title: xVASynth TTS
-emoji: 🧝‍♀️🧛‍♂️🧚‍♂
 colorFrom: gray
 colorTo: gray
 sdk: gradio
@@ -9,6 +9,7 @@ sdk_version: 4.20.0
 models:
   - Pendrokar/xvapitch_nvidia
   - Pendrokar/TorchMoji
 app_file: app.py
 app_port: 7860
 tags:
@@ -20,6 +21,7 @@ pinned: false
 preload_from_hub:
   - Pendrokar/xvapitch_nvidia
   - Pendrokar/TorchMoji
 license: gpl-3.0
 thumbnail: >-
   https://raw.githubusercontent.com/DanRuta/xVA-Synth/master/assets/x-icon.png

 ---
 title: xVASynth TTS
+emoji: 🧝‍♀️🧛‍♂️🧚‍♀️
 colorFrom: gray
 colorTo: gray
 sdk: gradio
 models:
   - Pendrokar/xvapitch_nvidia
   - Pendrokar/TorchMoji
+  - Pendrokar/xvasynth_lojban
 app_file: app.py
 app_port: 7860
 tags:
 preload_from_hub:
   - Pendrokar/xvapitch_nvidia
   - Pendrokar/TorchMoji
+  - Pendrokar/xvasynth_lojban
 license: gpl-3.0
 thumbnail: >-
   https://raw.githubusercontent.com/DanRuta/xVA-Synth/master/assets/x-icon.png

app.py CHANGED Viewed

@@ -15,16 +15,22 @@ model_repo = HfApi()
 commits = model_repo.list_repo_commits(repo_id=hf_model_name)
 latest_commit_sha = commits[0].commit_id
 hf_cache_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvapitch_nvidia/snapshots/{latest_commit_sha}/'
 models_path = hf_cache_models_path
 current_voice_model = None
 base_speaker_emb = ''
 def load_model(voice_model_name):
-	model_path =  models_path + voice_model_name
-	model_type = 'xVAPitch'
-	language = 'en'
 	data = {
 		'outputs': None,

 commits = model_repo.list_repo_commits(repo_id=hf_model_name)
 latest_commit_sha = commits[0].commit_id
 hf_cache_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvapitch_nvidia/snapshots/{latest_commit_sha}/'
+hf_cache_lojban_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvasynth_lojban/snapshots/{latest_commit_sha}/'
 models_path = hf_cache_models_path
 current_voice_model = None
 base_speaker_emb = ''
 def load_model(voice_model_name):
+	if voice_model_name == 'x_selpahi':
+		# Lojban
+		model_path =  hf_cache_lojban_models_path + voice_model_name
+		model_type = 'FastPitch1.1'
+	else:
+		model_path =  models_path + voice_model_name
+		model_type = 'xVAPitch'
+	language = 'en' # seems to have no effect if generated text is from a different language
 	data = {
 		'outputs': None,

gr_client.py CHANGED Viewed

@@ -9,13 +9,14 @@ voice_models = [
 ]
 voice_models_more = [
 	("🧔 #6670", "ccby_nvidia_hifi_6670_M"),
-	("Male #9017", "ccby_nvidia_hifi_9017_M"),
-	("Male #6097", "ccby_nvidia_hifi_6097_M"),
 	("👩‍🦱 #12787", "ccby_nvidia_hifi_12787_F"),
 	("👵 #11614", "ccby_nv_hifi_11614_F"),
-	("Female #8051", "ccby_nvidia_hifi_8051_F"),
 	("👩‍🦳 #11697", "ccby_nvidia_hifi_11697_F"),
-	("Female #9136", "ccby_nvidia_hifi_9136_F"),
 ]
 # order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
@@ -52,6 +53,11 @@ languages_more = [
 	("Wolof", "wo"),
 ]
 # Translated from English by DeepMind's Gemini Pro
 default_text = {
 	"ar": "هذا هو صوتي.",
@@ -66,6 +72,7 @@ default_text = {
 	"hi": "यह मेरी आवाज़ कैसी लगती है।",
 	"hu": "Így hangzik a hangom.",
 	"it": "Così suona la mia voce.",
 	"jp": "これが私の声です。",
 	"ko": "여기 제 목소리가 어떤지 들어보세요.",
 	"la": "Haec est vox mea sonans.",
@@ -285,6 +292,19 @@ language_radio_init = {
 	'info': "Will be more monotone and have an English accent."
 }
 _DESCRIPTION = '''
 <div>
 <a style="display:inline-block;" href="https://github.com/DanRuta/xVA-Synth"><img src='https://img.shields.io/github/stars/DanRuta/xVA-Synth?style=social'/></a>
@@ -475,10 +495,21 @@ class BlocksDemo:
 				queue=False,
 			)
 			voice_radio.change(
 				self.set_default_audio,
 				inputs=voice_radio,
-				outputs=output_wav
 			)
 		return demo

 ]
 voice_models_more = [
 	("🧔 #6670", "ccby_nvidia_hifi_6670_M"),
+	("👨‍🦲 #9017", "ccby_nvidia_hifi_9017_M"),
+	("🧑 #6097", "ccby_nvidia_hifi_6097_M"),
 	("👩‍🦱 #12787", "ccby_nvidia_hifi_12787_F"),
 	("👵 #11614", "ccby_nv_hifi_11614_F"),
+	("👩‍🦰 #8051", "ccby_nvidia_hifi_8051_F"),
 	("👩‍🦳 #11697", "ccby_nvidia_hifi_11697_F"),
+	("👩‍🦲 #9136", "ccby_nvidia_hifi_9136_F"),
+	("♟ Lojban", "x_selpahi"), # v2 model for Lojban, pre-multilingual capabilities of xVASynth
 ]
 # order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
 	("Wolof", "wo"),
 ]
+lojban_lang = [
+	# There is no ISO 639-1 for Lojban, but jb is valid
+	('♟ Lojban', 'jb')
+]
 # Translated from English by DeepMind's Gemini Pro
 default_text = {
 	"ar": "هذا هو صوتي.",
 	"hi": "यह मेरी आवाज़ कैसी लगती है।",
 	"hu": "Így hangzik a hangom.",
 	"it": "Così suona la mia voce.",
+	"jb": ".i ",
 	"jp": "これが私の声です。",
 	"ko": "여기 제 목소리가 어떤지 들어보세요.",
 	"la": "Haec est vox mea sonans.",
 	'info': "Will be more monotone and have an English accent."
 }
+def set_lojban_language(voice, lang):
+	if voice != 'x_selpahi':
+		return lang
+	radio_init = {**language_radio_init}
+	radio_init['choices'] = [
+		*lojban_lang,
+		*languages,
+		*languages_more,
+	]
+	radio_init['value'] = lojban_lang[0][1]
+	return gr.Radio(**radio_init)
 _DESCRIPTION = '''
 <div>
 <a style="display:inline-block;" href="https://github.com/DanRuta/xVA-Synth"><img src='https://img.shields.io/github/stars/DanRuta/xVA-Synth?style=social'/></a>
 				queue=False,
 			)
+			# Replace output with voice audio sample
 			voice_radio.change(
 				self.set_default_audio,
 				inputs=voice_radio,
+				outputs=output_wav,
+				queue=True,
+			)
+			# Switched to Lojban voice
+			voice_radio.change(
+				set_lojban_language,
+				inputs=[voice_radio, language_radio],
+				outputs=[language_radio],
+				trigger_mode='once',
+				queue=True,
 			)
 		return demo