Video-to-SoundFX

Running

App Files Files Community

fffiloni commited on Jun 14, 2024

Commit

d1578ce

verified ·

1 Parent(s): 61d75a4

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -3

app.py CHANGED Viewed

@@ -153,6 +153,37 @@ def get_tango(prompt):
     print(result)
     return result
 def blend_vsfx(video_in, audio_result):
     audioClip = AudioFileClip(audio_result)
     print(f"AUD: {audioClip.duration}")
@@ -180,6 +211,10 @@ def infer(video_in, chosen_model):
         audio_result = get_audiogen(caption)
     elif chosen_model == "Tango" :
         audio_result = get_tango(caption)
     final_res = blend_vsfx(video_in, audio_result)
     return gr.update(value=caption, interactive=True), gr.update(interactive=True), audio_result, final_res
@@ -195,6 +230,10 @@ def retry(edited_prompt, video_in, chosen_model):
         audio_result = get_audiogen(caption)
     elif chosen_model == "Tango" :
         audio_result = get_tango(caption)
     final_res = blend_vsfx(video_in, audio_result)
     return audio_result, final_res
@@ -225,7 +264,7 @@ with gr.Blocks(css=css) as demo:
             with gr.Column():
                 video_in = gr.Video(sources=["upload"], label="Video input")
                 with gr.Row():
-                    chosen_model = gr.Dropdown(label="Choose a model", choices=["MAGNet", "AudioLDM-2", "AudioGen", "Tango"], value="Tango")
                     submit_btn = gr.Button("Submit", scale=0)
             with gr.Column():
                 caption_o = gr.Textbox(label="Scene caption", interactive=False)
@@ -267,14 +306,12 @@ with gr.Blocks(css=css) as demo:
         fn=infer,
         inputs=[video_in, chosen_model],
         outputs=[caption_o, retry_btn, audio_o, video_o],
-        concurrency_limit = 2
     )
     retry_btn.click(
         fn=retry,
         inputs=[caption_o, video_in, chosen_model],
         outputs=[audio_o, video_o],
-        concurrency_limit = 2
     )
 demo.queue(max_size=10).launch(show_api=False, debug=True, show_error=True)

     print(result)
     return result
+def get_tango2(prompt):
+    try:
+        client = Client("declare-lab/tango2")
+    except:
+        raise gr.Error("Tango2 space API is not ready, please try again in few minutes ")
+    result = client.predict(
+    		prompt,
+    		100,
+    		4,
+    		api_name="/predict"
+    )
+    print(result)
+    return result
+def get_stable_audio_open(prompt):
+    try:
+        client = Client("fffiloni/Stable-Audio-Open-A10", hf_token=hf_token)
+    except:
+        raise gr.Error("Stable Audio Open space API is not ready, please try again in few minutes ")
+    result = client.predict(
+		prompt=prompt,
+		seconds_total=30,
+		steps=100,
+		cfg_scale=7,
+		api_name="/predict"
+    )
+    print(result)
+    return result
 def blend_vsfx(video_in, audio_result):
     audioClip = AudioFileClip(audio_result)
     print(f"AUD: {audioClip.duration}")
         audio_result = get_audiogen(caption)
     elif chosen_model == "Tango" :
         audio_result = get_tango(caption)
+    elif chosen_model == "Tango 2" :
+        audio_result = get_tango2(caption)
+    elif chosen_model == "Stable Audio Open" :
+        audio_result = get_stable_audio_open(caption)
     final_res = blend_vsfx(video_in, audio_result)
     return gr.update(value=caption, interactive=True), gr.update(interactive=True), audio_result, final_res
         audio_result = get_audiogen(caption)
     elif chosen_model == "Tango" :
         audio_result = get_tango(caption)
+    elif chosen_model == "Tango 2" :
+        audio_result = get_tango2(caption)
+    elif chosen_model == "Stable Audio Open" :
+        audio_result = get_stable_audio_open(caption)
     final_res = blend_vsfx(video_in, audio_result)
     return audio_result, final_res
             with gr.Column():
                 video_in = gr.Video(sources=["upload"], label="Video input")
                 with gr.Row():
+                    chosen_model = gr.Dropdown(label="Choose a model", choices=["MAGNet", "AudioLDM-2", "AudioGen", "Tango", "Tango 2", "Stable Audio Open"], value="Tango")
                     submit_btn = gr.Button("Submit", scale=0)
             with gr.Column():
                 caption_o = gr.Textbox(label="Scene caption", interactive=False)
         fn=infer,
         inputs=[video_in, chosen_model],
         outputs=[caption_o, retry_btn, audio_o, video_o],
     )
     retry_btn.click(
         fn=retry,
         inputs=[caption_o, video_in, chosen_model],
         outputs=[audio_o, video_o],
     )
 demo.queue(max_size=10).launch(show_api=False, debug=True, show_error=True)