Spaces:

qgyd2021
/

cc_audio_8

Running

App Files Files Community

HoneyTian commited on 17 days ago

Commit

58d9724

1 Parent(s): a57e1ce

update

Browse files

Files changed (6) hide show

examples/sample_filter/music_bad_case_find.py +12 -10
examples/sound_classification_by_lstm/run_batch.sh +64 -41
examples/sound_classification_by_lstm/yaml/{lstm-classifier-2-ch64.yaml → lstm-classifier-2-l3-ch64.yaml} +0 -0
examples/sound_classification_by_lstm/yaml/lstm-classifier-3-l3-ch64.yaml +29 -0
examples/sound_classification_by_lstm/yaml/{lstm-classifier-4-ch64.yaml → lstm-classifier-4-l3-ch64.yaml} +0 -0
examples/sound_classification_by_lstm/yaml/lstm-classifier-8-l3-ch64.yaml +29 -0

examples/sample_filter/music_bad_case_find.py CHANGED Viewed

@@ -15,19 +15,18 @@ def get_args():
     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--data_dir",
-        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\60\music\wav_segmented",
         type=str
     )
     parser.add_argument(
         "--keep_dir",
-        # default=r"D:\Users\tianx\HuggingSpaces\wav_segmented\keep",
-        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\60\music\wav_segmented\keep",
         type=str
     )
     parser.add_argument(
         "--trash_dir",
         # default=r"D:\Users\tianx\HuggingSpaces\wav_segmented\trash",
-        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\60\music\wav_segmented\trash",
         type=str
     )
     args = parser.parse_args()
@@ -49,12 +48,15 @@ def main():
     for idx, filename in tqdm(enumerate(data_dir.glob("*.wav"))):
         filename = filename.as_posix()
-        outputs = client.predict(
-            audio_t=handle_file(filename),
-            model_name="sound-8-ch32-cnn",
-            ground_true="Hello!!",
-            api_name="/when_click_cls_button"
-        )
         outputs = json.loads(outputs)
         label = outputs["label"]
         prob = outputs["prob"]

     parser = argparse.ArgumentParser()
     parser.add_argument(
         "--data_dir",
+        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\66\temp",
         type=str
     )
     parser.add_argument(
         "--keep_dir",
+        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\66\temp\keep",
         type=str
     )
     parser.add_argument(
         "--trash_dir",
         # default=r"D:\Users\tianx\HuggingSpaces\wav_segmented\trash",
+        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\66\temp\trash",
         type=str
     )
     args = parser.parse_args()
     for idx, filename in tqdm(enumerate(data_dir.glob("*.wav"))):
         filename = filename.as_posix()
+        try:
+            outputs = client.predict(
+                audio_t=handle_file(filename),
+                model_name="sound-8-ch32-cnn",
+                ground_true="Hello!!",
+                api_name="/when_click_cls_button"
+            )
+        except Exception as error:
+            continue
         outputs = json.loads(outputs)
         label = outputs["label"]
         prob = outputs["prob"]

examples/sound_classification_by_lstm/run_batch.sh CHANGED Viewed

@@ -1,91 +1,114 @@
 #!/usr/bin/env bash
 # pretrained voicemail
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml"
 # voicemail ch64
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-ph-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-PH/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-sg-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-SG/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-us-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-US/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-mx-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-MX/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-pe-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-PE/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-fi-fi-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/fi-FI/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-id-id-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/id-ID/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ja-jp-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ja-JP/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ko-kr-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ko-KR/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ms-my-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ms-MY/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-pt-br-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/pt-BR/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-th-th-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/th-TH/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-zh-tw-2-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/zh-TW/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-ch64-lstm.zip"

 #!/usr/bin/env bash
+# sound ch64
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-2-l3-ch64-lstm \
+--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+--label_plan 2 \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-3-l3-ch64-lstm \
+--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+--label_plan 3 \
+--config_file "yaml/lstm-classifier-3-l3-ch64.yaml"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-4-l3-ch64-lstm \
+--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+--label_plan 4 \
+--config_file "yaml/lstm-classifier-4-l3-ch64.yaml"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-8-l3-ch64-lstm \
+--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+--label_plan 8 \
+--config_file "yaml/lstm-classifier-8-l3-ch64.yaml"
 # pretrained voicemail
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml"
 # voicemail ch64
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-ph-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-PH/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-sg-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-SG/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-us-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-US/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-mx-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-MX/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-pe-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-PE/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-fi-fi-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/fi-FI/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-id-id-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/id-ID/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ja-jp-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ja-JP/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ko-kr-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ko-KR/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ms-my-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ms-MY/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-pt-br-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/pt-BR/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-th-th-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/th-TH/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-zh-tw-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/zh-TW/wav_finished/*/*.wav" \
 --label_plan 2-voicemail \
+--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"

examples/sound_classification_by_lstm/yaml/{lstm-classifier-2-ch64.yaml → lstm-classifier-2-l3-ch64.yaml} RENAMED Viewed

File without changes

examples/sound_classification_by_lstm/yaml/lstm-classifier-3-l3-ch64.yaml ADDED Viewed

	@@ -0,0 +1,29 @@

+model_name: "lstm_audio_classifier"
+mel_spectrogram_param:
+  sample_rate: 8000
+  n_fft: 512
+  win_length: 200
+  hop_length: 80
+  f_min: 10
+  f_max: 3800
+  window_fn: hamming
+  n_mels: 80
+lstm_layer_param:
+  input_size: 80
+  hidden_size: 64
+  num_layers: 3
+  dropout: 0.2
+pooling_layer_param:
+  pool_layer: last
+cls_head_param:
+  input_dim: 64
+  num_layers: 1
+  hidden_dims:
+    - 32
+  activations: relu
+  dropout: 0.1
+  num_labels: 3

examples/sound_classification_by_lstm/yaml/{lstm-classifier-4-ch64.yaml → lstm-classifier-4-l3-ch64.yaml} RENAMED Viewed

File without changes

examples/sound_classification_by_lstm/yaml/lstm-classifier-8-l3-ch64.yaml ADDED Viewed

	@@ -0,0 +1,29 @@

+model_name: "lstm_audio_classifier"
+mel_spectrogram_param:
+  sample_rate: 8000
+  n_fft: 512
+  win_length: 200
+  hop_length: 80
+  f_min: 10
+  f_max: 3800
+  window_fn: hamming
+  n_mels: 80
+lstm_layer_param:
+  input_size: 80
+  hidden_size: 64
+  num_layers: 3
+  dropout: 0.2
+pooling_layer_param:
+  pool_layer: last
+cls_head_param:
+  input_dim: 64
+  num_layers: 1
+  hidden_dims:
+    - 32
+  activations: relu
+  dropout: 0.1
+  num_labels: 8