Spaces:

qgyd2021
/

cc_audio_8

Running

App Files Files Community

HoneyTian commited on 3 days ago

Commit

85abe14

1 Parent(s): 164db19

update

Browse files

Files changed (14) hide show

examples/download_wav/step_1_download_wav.py +127 -27
examples/download_wav/step_3_split_two_second_wav.py +7 -11
examples/nx_spider_transferred_bad_case_filter/step_1_bad_case_filter.py +166 -0
examples/online_model_test/step_1_predict.py +0 -218
examples/online_model_test/step_2_audio_filter.py +0 -47
examples/online_model_test/step_3_make_test.py +0 -75
examples/online_model_test/test.py +0 -84
examples/sample_filter/bad_case_find.py +14 -11
examples/sound_classification_by_lstm/run_batch.sh +89 -89
examples/sound_classification_by_lstm/step_9_evaluation_onnx_model.py +50 -44
log.py +257 -0
main.py +2 -1
project_settings.py +7 -1
requirements.txt +1 -0

examples/download_wav/step_1_download_wav.py CHANGED Viewed

@@ -16,7 +16,7 @@ def get_args():
     parser.add_argument(
         "--output_dir",
-        default=(project_path / "temp/").as_posix(),
         type=str
     )
     args = parser.parse_args()
@@ -24,27 +24,120 @@ def get_args():
 call_id_str = """
 79e8d43f-3f17-484f-966b-681557a19dd9
 a8934418-5626-4bf4-9525-7924d3413dc3
 204abc19-ff7d-4495-8969-2faa431a5efa
 82817c32-6dfa-4622-aae3-71712fa2159b
 aa560c1c-58d7-4e63-95b7-4a0045962dbc
 cf63816f-3fe3-4b61-a6cd-7d640bb02372
 70de5e15-2cbc-4371-9f08-fa3f46339254
 ea64fc33-32be-46eb-b211-8cd5e8b142a2
 a0e00c7e-c35e-45db-9864-35588b89193f
 95d85c9b-b7de-4b01-8c39-03102fa3248f
 ce38a1b8-6b6c-4aae-886b-9c04e528527f
 939c6a18-e606-4af8-ab88-01e4e25664de
 6317de3a-95b0-4ac3-83a5-2d70d445b0cc
 cfd1b906-e977-4706-8a7a-183992ffe025
 49c6a88d-4913-4351-a2d3-4090e512819b
 271494db-8a44-4f0f-9c2e-2dede59e03bf
 bdf48a65-3cad-4b3c-92f1-94c977486d98
 9ef629ac-c190-45e7-bf69-b83a213b356c
 313f22a9-afa8-4464-87c5-abcb5b2f32d7
 87719779-8355-43ce-9c78-746b060f0ca2
 229b5d6f-4542-40f2-817a-d8218b073967
 """
@@ -57,36 +150,43 @@ def main():
     # finished
     finished = set()
     for filename in output_dir.glob("*.wav"):
-        call_id = filename.stem
-        finished.add(call_id)
     splits = call_id_str.strip().split("\n")
     for call_id in splits:
         call_id = str(call_id).strip()
-        record_url = f"https://record-prod.obs.la-south-2.myhuaweicloud.com/audio_corpus/callbot/es-MX/20251201/{call_id}_active_media.wav"
-        if call_id in finished:
-            continue
-        try:
-            print(f"record_url: {record_url}")
-            resp = requests.get(
-                url=record_url,
-            )
-        except (TimeoutError, requests.exceptions.ConnectionError):
-            continue
-        except Exception as e:
-            print(e)
-            continue
-        if resp.status_code == 404:
-            continue
-        if resp.status_code != 200:
-            raise AssertionError("status_code: {}; text: {}".format(resp.status_code, resp.text))
-        filename = output_dir / f"{call_id}.wav"
-        with open(filename.as_posix(), "wb") as f:
-            f.write(resp.content)
     return

     parser.add_argument(
         "--output_dir",
+        default=(project_path / "data/make_analysis_excel/download_wav/20251204/").as_posix(),
         type=str
     )
     args = parser.parse_args()
 call_id_str = """
+c6840978-207e-43e0-b62e-4ad1a4269917
+a6961fd4-19a2-4403-ac8a-8c1e2ebe714b
+921a94e3-292a-4092-b532-a25aac195ed5
+898d85e2-9d5a-450c-b1bd-e02b88d3f703
+20a52fe5-b4f9-47b9-9af5-5670bbc77ec2
+e4a3e15c-97e0-4cf5-858a-8cbd728d71e6
+59cc7e56-f956-49f4-8004-6bdbf306161e
 79e8d43f-3f17-484f-966b-681557a19dd9
+ffba67b6-5ad5-437d-be71-23f2786b9364
+4ce36ae6-b5d0-4108-ab6f-bf08ea6ba50c
+3690e91b-282d-4a40-82bb-f7b4dad7bf32
+0764293a-95ae-492f-b08e-9873450e417f
+7f16a22d-2194-4656-bce3-ad6d39c7bee3
+c7fb4444-f669-490a-898a-ddec20d02318
+70e1c32f-0aaa-404d-a70e-4a19931174fb
+9a03a1ee-5cce-4cfd-b479-096067484b13
 a8934418-5626-4bf4-9525-7924d3413dc3
+7ad6154a-5191-4ef0-a72e-717b62c5fd1f
 204abc19-ff7d-4495-8969-2faa431a5efa
+6adfceb3-d625-4036-bb3a-ef9db5f761bb
+9aa34ed8-98ed-49bc-b8e6-8f98c7574d50
 82817c32-6dfa-4622-aae3-71712fa2159b
+13958016-250b-4c60-9b31-5c85df365cb6
 aa560c1c-58d7-4e63-95b7-4a0045962dbc
+e20c2660-d291-46fd-94a9-d9b554f2c305
 cf63816f-3fe3-4b61-a6cd-7d640bb02372
+e84f5e8b-4fff-4a22-bf3b-371ebb956156
+73659b92-5fc2-4a73-8aeb-572ab492abea
+ac9ab878-9f27-48e9-b2d5-1b212c85a8d4
 70de5e15-2cbc-4371-9f08-fa3f46339254
+11ae324f-8c43-4f65-bf68-761de7097099
+0d5d7635-0c6f-48f9-beb7-509806f783ce
+f84ca27e-cc70-4557-a9a0-39df493b5807
+c065e5f6-0a59-417a-8a7a-df1deb769559
+8a9d1668-a5c2-440f-820d-bf792ce3cd8b
+de6450f6-9e92-48fe-8080-640cdffc4e00
+8e31e1b7-fe5a-4aa3-abba-4ad42ddaf9f6
+eb124d81-c0b5-4ddb-ad42-42163374d037
+69b1f442-0b43-4b70-af47-585a2a1383bf
 ea64fc33-32be-46eb-b211-8cd5e8b142a2
+7c670953-bd32-4a1b-9fc8-e35b8d26229b
+a47120e1-0c4f-419b-babe-ed8e0c89fb0f
+7fba0c62-3bf5-4db8-8e8c-63cc15227d19
 a0e00c7e-c35e-45db-9864-35588b89193f
+6b0ff409-a3c9-45d3-9900-853e34d5dccb
+ff288628-ac15-4039-8819-e69dbe4596cd
+19d63f42-05e3-479a-8292-caccd26d32c4
+af386af3-373a-4f6e-a093-a3d15b6afe77
+14c78d26-5080-40d3-b1f6-3461e75f6598
 95d85c9b-b7de-4b01-8c39-03102fa3248f
+ec03d767-8286-42de-b481-f8105c5ad298
+c22b61f2-ccae-4cd9-babd-650aabd86c59
+01d931b2-5bcb-4b5d-ad4d-d441329fb79b
 ce38a1b8-6b6c-4aae-886b-9c04e528527f
+a3f8a853-c8fd-4d35-a2c6-b15ca1cb3ea5
+56ec6fb2-29e5-4148-af7c-5a9b38f4d407
+702a39b8-ae30-4d54-97c0-50158d2ab848
+dff637d4-0862-4034-b552-a118ec57290a
+d05aee2a-e8c2-4a00-8929-7dba26464339
 939c6a18-e606-4af8-ab88-01e4e25664de
+4a532921-e886-4f61-a2b6-46c0b0cbbde3
 6317de3a-95b0-4ac3-83a5-2d70d445b0cc
+0334372b-7af8-46b4-84db-3977f41520ba
+0370b4af-ffcd-43b6-a852-7207fa1a992d
+9b272724-c624-4972-91b8-54fade919640
 cfd1b906-e977-4706-8a7a-183992ffe025
+63cbb310-dddd-4c97-8f92-d8e5056b8550
+61ba0fe6-cbb8-47f1-a020-4719807d7992
+9251e484-c76f-4c33-b331-c9b88b6e7f4e
+b6c7c47f-bebd-4efa-ae25-a1dc5cd99f30
+1870396b-c4ba-4d83-9ecd-aabecc8ed203
+af11ed20-9f70-49c6-93c9-c3dc5066f90f
+2c14d303-8f1e-4663-8e56-96299bd06bc8
+e6f8c638-07cb-4d30-b6f1-66f950e74c92
+ec8ac7da-e090-40c0-a93c-cef10f96b6d6
+7d0225ac-03c6-43dc-9e2e-b6203f40cd7c
+c6b5c8a8-4339-420b-a643-79e1487a5d9e
+e5c4411b-1294-475f-9d4a-2434e7ac14c4
+867f37cb-a7a2-4caa-89d3-95557b58d8a4
+532813ac-037f-4c2d-ad55-a16f24564157
+9e66794d-43b1-41a1-97ef-42b1bb2a01b3
+7678c113-56b0-4c5e-b14b-67b05b9b38a2
+ce7c6a54-2d7c-4c02-8721-2c875d1fd062
 49c6a88d-4913-4351-a2d3-4090e512819b
+9e02d2c8-89f9-4721-b504-f29fd44d878a
+f3d19980-ea20-4c2d-88ed-3b4712222998
+3ba69f36-df6b-4e52-98ae-a652df403c4f
+82743f14-26bb-4019-85d1-3ef5edc90454
+05d10d13-69e8-438d-b65c-7cfbdafaca17
+7eefc24b-673a-4b45-89d7-444f12846c93
+0199dd38-de6b-4be3-80f7-cf4f170ef2f2
 271494db-8a44-4f0f-9c2e-2dede59e03bf
+54dcf802-6d3a-431e-b958-bfc8af7afb30
 bdf48a65-3cad-4b3c-92f1-94c977486d98
+b7336c2f-7aca-4a88-bfc5-4d188a6add83
+010542f1-2767-4d7e-9969-79216a8d799d
+18e644ee-6ca2-40bf-8b41-ca68f94c5fcb
 9ef629ac-c190-45e7-bf69-b83a213b356c
 313f22a9-afa8-4464-87c5-abcb5b2f32d7
+49a17069-dfdc-4c9a-b84a-2079d04d833e
+fdc64c2b-d233-4817-8792-d1caaf2c591a
+741a6203-ac89-4061-9799-a51c5e4cfc49
+8fba001c-59da-4b63-8a3d-6d8f56c26e0a
 87719779-8355-43ce-9c78-746b060f0ca2
+68fec1e9-fbb1-44fd-abaf-5659a5464fa6
+ab26e325-9c7d-4aeb-88c0-898647896ef8
+4d0f4d96-4c79-47a3-a8af-6481b463f5a6
+85db8889-ffe8-4c1c-a879-83faf1e878e8
+4114acf2-e508-420c-a868-26ab9aae2250
 229b5d6f-4542-40f2-817a-d8218b073967
+4ef0dd76-fb7a-4340-b44d-5347178df527
+4e223d73-1f32-4a0b-b607-cea8e407c0d5
+42bed8d9-4833-4c3c-8e43-50ec2ef6bdf2
+99e18f68-4e84-48c2-991b-282992f51570
 """
     # finished
     finished = set()
     for filename in output_dir.glob("*.wav"):
+        name = filename.stem
+        finished.add(name)
+    print(f"finished count: {len(finished)}")
     splits = call_id_str.strip().split("\n")
     for call_id in splits:
         call_id = str(call_id).strip()
+        record_url_early_media = f"https://record-prod.obs.la-south-2.myhuaweicloud.com/audio_corpus/callbot/es-MX/20251201/{call_id}_early_media.wav"
+        record_url_active_media = f"https://record-prod.obs.la-south-2.myhuaweicloud.com/audio_corpus/callbot/es-MX/20251201/{call_id}_active_media.wav"
+        for media_type, record_url in [("early_media", record_url_early_media), ("active_media", record_url_active_media)]:
+            name = f"{media_type}_{call_id}"
+            if name in finished:
+                continue
+            try:
+                print(f"record_url: {record_url}")
+                resp = requests.get(
+                    url=record_url,
+                )
+            except (TimeoutError, requests.exceptions.ConnectionError):
+                print(f"record_url timeout: {record_url}")
+                continue
+            except Exception as e:
+                print(e)
+                continue
+            if resp.status_code == 404:
+                print(f"record_url not found: {record_url}")
+                continue
+            if resp.status_code != 200:
+                raise AssertionError("status_code: {}; text: {}".format(resp.status_code, resp.text))
+            filename = output_dir / f"{name}.wav"
+            with open(filename.as_posix(), "wb") as f:
+                f.write(resp.content)
     return

examples/download_wav/step_3_split_two_second_wav.py CHANGED Viewed

@@ -16,24 +16,19 @@ def get_args():
     parser.add_argument(
         "--audio_dir",
         # default=(project_path / "data/calling/63/wav_1ch").as_posix(),
-        # default=(project_path / "data/calling/358/wav_1ch/finished/voicemail_annotation").as_posix(),
-        # default=(project_path / "data/calling/358/wav_1ch/finished/voicemail_annotation").as_posix(),
-        # default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\60\music",
-        # default=r"D:\Users\tianx\HuggingDatasets\calling_analysis\data\analysis\es-MX-2\bell_and_machine_voice",
-        default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\temp",
         type=str
     )
     parser.add_argument(
         "--output_dir",
-        # default=(project_path / "data/calling/63/wav_segmented").as_posix(),
-        # default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\60\music\wav_segmented",
-        # default=r"D:\Users\tianx\HuggingDatasets\calling_analysis\data\analysis\es-MX-2\bell_and_machine_voice\wav_segmented",
-        default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\temp\wav_segmented",
         type=str
     )
     parser.add_argument(
         "--first_n_seconds",
-        default=8,
         type=int
     )
     args = parser.parse_args()
@@ -72,7 +67,8 @@ def main():
             # to_filename = output_dir / f"active_media_r_{call_id}_{language}_{scene_id}_{begin}_from_mp3.wav"
             # to_filename = output_dir / f"active_media_r_{call_id}_{language}_{scene_id}_{begin}.wav"
-            to_filename = output_dir / f"active_media_r_{filename.stem}_{begin}.wav"
             wavfile.write(
                 to_filename.as_posix(),
                 sample_rate,

     parser.add_argument(
         "--audio_dir",
         # default=(project_path / "data/calling/63/wav_1ch").as_posix(),
+        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\63\bell",
+        # default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\temp",
         type=str
     )
     parser.add_argument(
         "--output_dir",
+        default=r"D:\Users\tianx\HuggingSpaces\template_match_asr\data\wav\early_media\63\bell\wav_segmented",
+        # default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\temp\wav_segmented",
         type=str
     )
     parser.add_argument(
         "--first_n_seconds",
+        default=100,
         type=int
     )
     args = parser.parse_args()
             # to_filename = output_dir / f"active_media_r_{call_id}_{language}_{scene_id}_{begin}_from_mp3.wav"
             # to_filename = output_dir / f"active_media_r_{call_id}_{language}_{scene_id}_{begin}.wav"
+            # to_filename = output_dir / f"active_media_r_{filename.stem}_{begin}.wav"
+            to_filename = output_dir / f"{filename.stem}_{begin}.wav"
             wavfile.write(
                 to_filename.as_posix(),
                 sample_rate,

examples/nx_spider_transferred_bad_case_filter/step_1_bad_case_filter.py ADDED Viewed

	@@ -0,0 +1,166 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+import argparse
+import json
+import os
+from pathlib import Path
+import shutil
+import logging
+import tempfile
+from urllib.parse import urlparse
+import requests
+from gradio_client import Client, handle_file
+from tqdm import tqdm
+from tenacity import before_sleep_log, retry, retry_if_exception_type, stop_after_attempt, wait_fixed
+import log
+from project_settings import project_path, log_directory, temp_directory
+log.setup_size_rotating(log_directory=log_directory, tz_info="Asia/Shanghai")
+logger = logging.getLogger("main")
+def get_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--task_file",
+        default=r"D:\Users\tianx\intelli-zen\nx_spider\data\transferred_bad_case_filter\transferred_2025-11-20_2025-11-26.jsonl",
+        type=str
+    )
+    parser.add_argument(
+        "--output_dir",
+        default=(project_path / "data/nx_spider_transferred_bad_case_filter/20251203").as_posix(),
+        type=str
+    )
+    parser.add_argument(
+        "--output_file",
+        default=(project_path / "data/nx_spider_transferred_bad_case_filter/20251203/bad_case.jsonl").as_posix(),
+        type=str
+    )
+    args = parser.parse_args()
+    return args
+def retry_call(fn, *args, **kwargs):
+    @retry(
+        wait=wait_fixed(10),
+        stop=stop_after_attempt(3),
+        before_sleep=before_sleep_log(logger, logging.ERROR),
+    )
+    def wrapped():
+        return fn(*args, **kwargs)
+    return wrapped()
+@retry(
+    wait=wait_fixed(10),
+    stop=stop_after_attempt(3),
+    before_sleep=before_sleep_log(logger, logging.ERROR),
+)
+def download_wav_by_url(url: str, output_dir: str):
+    p = urlparse(url)
+    path = Path(p.path)
+    filename = os.path.join(output_dir, path.name)
+    resp = requests.get(
+        url=url,
+    )
+    if resp.status_code == 404:
+        return None, "not found; 404;"
+    with open(filename, "wb") as f:
+        f.write(resp.content)
+    return filename, "success"
+def main():
+    args = get_args()
+    task_file = Path(args.task_file)
+    output_dir = Path(args.output_dir)
+    output_dir.mkdir(parents=True, exist_ok=True)
+    output_file = Path(args.output_file)
+    output_file.parent.mkdir(parents=True, exist_ok=True)
+    client = Client("http://127.0.0.1:7864/")
+    model_name = f"voicemail-es-mx-2-l3-ch4-cnn"
+    labels = client.predict(
+        model_name=model_name,
+        api_name="/partial"
+    )
+    target_label = labels["value"]
+    # finished
+    finished = set()
+    if output_file.exists():
+        with open(output_file.as_posix(), "r", encoding="utf-8") as f:
+            for row in f:
+                row = json.loads(row)
+                call_id = row["call_id"]
+                finished.add(call_id)
+    logger.info(f"finished count: {len(finished)}")
+    with open(task_file.as_posix(), "r", encoding="utf-8") as fin, open(output_file.as_posix(), "a+", encoding="utf-8") as fout:
+        for row in fin:
+            row = json.loads(row)
+            call_id = row["call_id"]
+            call_elapsed = row["call_elapsed"]
+            early_media_record_url = row["early_media_record_url"]
+            active_media_record_url = row["active_media_record_url"]
+            if call_id in finished:
+                continue
+            if call_elapsed < 45:
+                continue
+            logger.info(f"process call_id: {call_id}; url: {active_media_record_url}")
+            tmp, message = download_wav_by_url(active_media_record_url, temp_directory.as_posix())
+            if tmp is None:
+                logger.error(f"download wav failed; url: {active_media_record_url}, message: {message}")
+                continue
+            max_duration = min(call_elapsed // 2, 15)
+            try:
+                outputs = retry_call(
+                    client.predict,
+                    audio_t=handle_file(tmp),
+                    model_name=model_name,
+                    # target_label=target_label,
+                    target_label="voice",
+                    win_size=2,
+                    win_step=2,
+                    max_duration=max_duration,
+                    api_name="/when_click_event_button"
+                )
+            except Exception as error:
+                continue
+            outputs = json.loads(outputs)
+            row_ = {
+                "call_id": call_id,
+                "call_elapsed": call_elapsed,
+                "early_media_record_url": early_media_record_url,
+                "active_media_record_url": active_media_record_url,
+                "labels": outputs,
+            }
+            row_ = json.dumps(row_, ensure_ascii=False)
+            fout.write(f"{row_}\n")
+            fout.flush()
+            if len(outputs) == 0:
+                continue
+            labels = [row["label"] for row in outputs]
+            if any([label in ("voicemail",) for label in labels]):
+                shutil.copy(
+                    tmp,
+                    output_dir.as_posix()
+                )
+    return
+if __name__ == "__main__":
+    main()

examples/online_model_test/step_1_predict.py DELETED Viewed

@@ -1,218 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-import argparse
-import glob
-import json
-import os
-from pathlib import Path
-from tqdm import tqdm
-import librosa
-import numpy as np
-import onnxruntime as ort
-import pandas as pd
-import torch
-import torchaudio
-def get_args():
-    parser = argparse.ArgumentParser()
-    parser.add_argument(
-        "--audio_dir",
-        default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\audio_lib_hkg_1\th-TH\th-TH\early_media_no_voice",
-        type=str,
-    )
-    parser.add_argument("--onnx_model_file", default="models/th-TH.onnx", type=str)
-    parser.add_argument("--target_duration", default=8.0, type=float)
-    parser.add_argument("--output_file", default="th-TH_predict.xlsx", type=str)
-    args = parser.parse_args()
-    return args
-class OnlineModelConfig(object):
-    def __init__(self,
-                 sample_rate: int = 8000,
-                 n_fft: int = 1024,
-                 hop_size: int = 512,
-                 n_mels: int = 80,
-                 f_min: float = 10.0,
-                 f_max: float = 3800.0,
-                 ):
-        self.sample_rate = sample_rate
-        self.n_fft = n_fft
-        self.hop_size = hop_size
-        self.n_mels = n_mels
-        self.f_min = f_min
-        self.f_max = f_max
-class OnlineModelInference(object):
-    def __init__(self,
-                 model_path: str,
-                 ):
-        self.model_path = model_path
-        providers = [
-            "CUDAExecutionProvider", "CPUExecutionProvider"
-        ] if torch.cuda.is_available() else [
-            "CPUExecutionProvider"
-        ]
-        self.session = ort.InferenceSession(self.model_path, providers=providers)
-        self.config = OnlineModelConfig()
-        self.mel_transform = torchaudio.transforms.MelSpectrogram(
-            sample_rate=self.config.sample_rate,
-            n_fft=self.config.n_fft,
-            hop_length=self.config.hop_size,
-            n_mels=self.config.n_mels,
-            f_min=self.config.f_min,
-            f_max=self.config.f_max,
-            window_fn=torch.hamming_window
-        )
-    def predict_by_ndarray(self,
-                           sub_signal: np.ndarray,
-                           h: np.ndarray = None,
-                           c: np.ndarray = None,
-                           ):
-        # sub_signal, shape: [num_samples,]
-        sub_signal = torch.tensor(sub_signal, dtype=torch.float32)
-        sub_signal = sub_signal.unsqueeze(0)
-        # sub_signal, shape: [1, num_samples]
-        mel_spec = self.mel_transform.forward(sub_signal)
-        # mel_spec, shape: [1, n_mels, n_frames]
-        mel_spec = torch.transpose(mel_spec, dim0=1, dim1=2)
-        # mel_spec, shape: [1, n_frames, n_mels]
-        h = torch.tensor(h) if h is not None else None
-        c = torch.tensor(c) if h is not None else None
-        label, prob, h, c = self.predict_by_mel_spec(mel_spec, h=h, c=c)
-        # h, c: torch.Tensor
-        h = h.numpy()
-        c = c.numpy()
-        return label, prob, h, c
-    def predict_by_mel_spec(self,
-                            mel_spec: torch.Tensor,
-                            h: torch.Tensor = None,
-                            c: torch.Tensor = None,
-                            ):
-        # mel_spec, shape: [1, n_frames, n_mels]
-        if h is None:
-            h = np.zeros((3, 1, 64), dtype=np.float32)  # 3层LSTM，批次大小1，隐藏大小64
-        else:
-            h = h.numpy()
-        if c is None:
-            c = np.zeros((3, 1, 64), dtype=np.float32)  # 3层LSTM，批次大小1，隐藏大小64
-        else:
-            c = c.numpy()
-        mel_spec_np = mel_spec.numpy()
-        outputs = self.session.run(
-            input_feed={
-                "input": mel_spec_np,
-                "h": h,
-                "c": c
-            },
-            output_names=[
-                "output", "h_out", "c_out"
-            ],
-        )
-        logits, h, c = outputs
-        # logits, np.ndarray, shape: [b, num_labels]
-        # h, c: np.ndarray
-        h = torch.tensor(h)
-        c = torch.tensor(c)
-        probs = torch.softmax(torch.tensor(logits), dim=1)
-        max_prob, predicted_label_index = torch.max(probs, dim=1)
-        label = self.get_label_by_index(predicted_label_index.item())
-        prob = max_prob.item()
-        return label, prob, h, c
-    @staticmethod
-    def get_label_by_index(index: int):
-        label_map = {
-            0: "voice",
-            1: "voicemail",
-            2: "mute",
-            3: "noise"
-        }
-        result = label_map[index]
-        return result
-def main():
-    args = get_args()
-    audio_dir = Path(args.audio_dir)
-    model = OnlineModelInference(model_path=args.onnx_model_file)
-    result = list()
-    for filename in tqdm(audio_dir.glob("**/active_media_r_*.wav")):
-        splits = filename.stem.split("_")
-        call_id = splits[3]
-        language = splits[4]
-        scene_id = splits[5]
-        signal, sample_rate = librosa.load(filename.as_posix(), sr=8000)
-        duration = librosa.get_duration(y=signal, sr=sample_rate)
-        signal_length = len(signal)
-        if signal_length == 0:
-            continue
-        target_duration = args.target_duration * sample_rate
-        target_duration = int(target_duration)
-        predict_result = list()
-        h = None
-        c = None
-        for begin in range(0, target_duration, sample_rate*2):
-            end = begin + sample_rate*2
-            sub_signal = signal[begin: end]
-            if len(sub_signal) < 0.5 * sample_rate:
-                break
-            label, prob, h, c = model.predict_by_ndarray(sub_signal, h=h, c=c)
-            predict_result.append({
-                "label": label,
-                "prob": prob,
-            })
-        if len(predict_result) == 0:
-            continue
-        label_list = [p["label"] for p in predict_result]
-        predict_result_ = json.dumps(predict_result, ensure_ascii=False, indent=4)
-        label2 = predict_result[0]["label"]
-        prob2 = predict_result[0]["prob"]
-        ground_truth_ = "voicemail" if any([l == "voicemail" for l in label_list]) else "else"
-        flag = 1 if label2 == "voicemail" else 0
-        row = {
-            "call_id": call_id,
-            "language": language,
-            "scene_id": scene_id,
-            "filename": filename.as_posix(),
-            "duration": duration,
-            "predict_result": predict_result_,
-            "label2": label2,
-            "prob2": prob2,
-            "ground_truth_": ground_truth_,
-            "flag": flag,
-        }
-        result.append(row)
-    result = pd.DataFrame(result)
-    result.to_excel(args.output_file, index=False)
-    return
-if __name__ == "__main__":
-    main()

examples/online_model_test/step_2_audio_filter.py DELETED Viewed

@@ -1,47 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-import argparse
-from pathlib import Path
-import shutil
-import pandas as pd
-def get_args():
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--predict_file", default="th-TH_predict.xlsx", type=str)
-    parser.add_argument(
-        "--output_dir",
-        default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\audio_lib_hkg_1\th-TH\th-TH\early_media_no_voice\bad_case",
-        type=str,
-    )
-    args = parser.parse_args()
-    return args
-def main():
-    args = get_args()
-    output_dir = Path(args.output_dir)
-    output_dir.mkdir(parents=True, exist_ok=True)
-    df = pd.read_excel(args.predict_file)
-    for i, row in df.iterrows():
-        filename = row["filename"]
-        ground_truth_ = row["ground_truth_"]
-        flag = row["flag"]
-        if flag == 1:
-            continue
-        if ground_truth_ == "voicemail":
-            shutil.copy(
-                filename,
-                output_dir.as_posix()
-            )
-    return
-if __name__ == "__main__":
-    main()

examples/online_model_test/step_3_make_test.py DELETED Viewed

@@ -1,75 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-import argparse
-from pathlib import Path
-import shutil
-from gradio_client import Client, handle_file
-import librosa
-import pandas as pd
-from tqdm import tqdm
-def get_args():
-    parser = argparse.ArgumentParser()
-    parser.add_argument(
-        "--src_dir",
-        default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\calling\63\voicemail",
-        type=str,
-    )
-    parser.add_argument(
-        "--tgt_dir",
-        default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\voice_test_examples\63\96",
-        type=str,
-    )
-    parser.add_argument(
-        "--early_media_file",
-        default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\voice_test_examples\886\97\early_media_ba95fafd-8e2f-488f-8e5a-9bada95e24fb.wav",
-        type=str,
-    )
-    args = parser.parse_args()
-    return args
-def main():
-    args = get_args()
-    src_dir = Path(args.src_dir)
-    tgt_dir = Path(args.tgt_dir)
-    tgt_dir.mkdir(parents=True, exist_ok=True)
-    client = Client("http://10.75.27.247:7861/")
-    for filename in tqdm(src_dir.glob("*.wav")):
-        splits = filename.stem.split("_")
-        call_id = splits[3]
-        filename_ = filename.as_posix()
-        y, sr = librosa.load(filename_)
-        duration = librosa.get_duration(y=y, sr=sr)
-        if duration < 20:
-            filename_, _ = client.predict(
-                audio_t=handle_file(filename_),
-                pad_seconds=20,
-                pad_mode="repeat",
-                api_name="/when_click_pad_audio"
-            )
-        active_media_file = tgt_dir / f"active_media_{call_id}.wav"
-        early_media_file = tgt_dir / f"early_media_{call_id}.wav"
-        shutil.copy(
-            filename_,
-            active_media_file.as_posix(),
-        )
-        shutil.copy(
-            args.early_media_file,
-            early_media_file.as_posix(),
-        )
-    return
-if __name__ == "__main__":
-    main()

examples/online_model_test/test.py DELETED Viewed

@@ -1,84 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-import argparse
-from collections import defaultdict
-from pathlib import Path
-import shutil
-from gradio_client import Client, handle_file
-import librosa
-import pandas as pd
-from tqdm import tqdm
-def get_args():
-    parser = argparse.ArgumentParser()
-    parser.add_argument(
-        "--finished_dir",
-        default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\data\calling\66\wav_1ch",
-        type=str,
-    )
-    parser.add_argument(
-        "--src_dir",
-        default=r"D:/Users/tianx/HuggingDatasets/international_voice/data/sea-idn/audio_lib_hkg_1/audio_lib_hkg_1/th-TH/th-TH/",
-        type=str,
-    )
-    parser.add_argument(
-        "--tgt_dir",
-        default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\audio_lib_hkg_1\th-TH\bad_case",
-        type=str,
-    )
-    args = parser.parse_args()
-    return args
-def main():
-    args = get_args()
-    finished_dir = Path(args.finished_dir)
-    src_dir = Path(args.src_dir)
-    tgt_dir = Path(args.tgt_dir)
-    tgt_dir.mkdir(parents=True, exist_ok=True)
-    # finished
-    finished = set()
-    for filename in finished_dir.glob("*.wav"):
-        splits = filename.stem.split("_")
-        call_id = splits[3]
-        if call_id in ("27521940-feef-4bfa-ba55-b1f00a10c64d",):
-            print(f"call_id: {call_id}")
-        finished.add(call_id)
-    print(f"finished count: {len(finished)}")
-    # call_id_to_wav_file_list
-    call_id_to_wav_file_list = defaultdict(list)
-    for filename in src_dir.glob("**/*.wav"):
-        splits = filename.stem.split("_")
-        call_id = splits[3]
-        language = splits[4]
-        scene_id = splits[5]
-        if call_id in ("27521940-feef-4bfa-ba55-b1f00a10c64d",):
-            print(f"call_id: {call_id}")
-        call_id_to_wav_file_list[call_id].append(filename.as_posix())
-    print(f"src count: {len(call_id_to_wav_file_list)}")
-    for filename in tqdm(src_dir.glob("**/active_media_r_*.wav")):
-        splits = filename.stem.split("_")
-        call_id = splits[3]
-        if call_id in ("27521940-feef-4bfa-ba55-b1f00a10c64d",):
-            print(f"call_id: {call_id}")
-        if call_id in finished:
-            wav_file_list = call_id_to_wav_file_list[call_id]
-            for wav_file in wav_file_list:
-                shutil.move(
-                    wav_file,
-                    tgt_dir.as_posix(),
-                )
-    return
-if __name__ == "__main__":
-    main()

examples/sample_filter/bad_case_find.py CHANGED Viewed

@@ -16,28 +16,28 @@ def get_args():
     parser.add_argument(
         "--data_dir",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup",
-        default=r"D:\Users\tianx\HuggingSpaces\wav_segmented",
         # default=(project_path / "data/calling/63/wav_segmented"),
         type=str
     )
     parser.add_argument(
         "--keep_dir1",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup\keep1",
-        default=r"D:\Users\tianx\HuggingSpaces\wav_segmented\keep1",
         # default=(project_path / "data/calling/63/wav_segmented/keep1"),
         type=str
     )
     parser.add_argument(
         "--keep_dir2",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup\keep2",
-        default=r"D:\Users\tianx\HuggingSpaces\wav_segmented\keep2",
         # default=(project_path / "data/calling/63/wav_segmented/keep2"),
         type=str
     )
     parser.add_argument(
         "--trash_dir",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup\trash",
-        default=r"D:\Users\tianx\HuggingSpaces\wav_segmented\trash",
         # default=(project_path / "data/calling/63/wav_segmented/trash"),
         type=str
     )
@@ -64,19 +64,22 @@ def main():
         #     continue
         filename = filename.as_posix()
-        outputs1 = client.predict(
-            audio_t=handle_file(filename),
-            model_name="voicemail-en-ph-2-ch4-cnn",
-            ground_true="Hello!!",
-            api_name="/when_click_cls_button"
-        )
         outputs1 = json.loads(outputs1)
         label1 = outputs1["label"]
         prob1 = outputs1["prob"]
         outputs2 = client.predict(
             audio_t=handle_file(filename),
-            model_name="sound-8-ch32-cnn",
             ground_true="Hello!!",
             api_name="/when_click_cls_button"
         )

     parser.add_argument(
         "--data_dir",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup",
+        default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\data\temp",
         # default=(project_path / "data/calling/63/wav_segmented"),
         type=str
     )
     parser.add_argument(
         "--keep_dir1",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup\keep1",
+        default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\data\temp\keep1",
         # default=(project_path / "data/calling/63/wav_segmented/keep1"),
         type=str
     )
     parser.add_argument(
         "--keep_dir2",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup\keep2",
+        default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\data\temp\keep2",
         # default=(project_path / "data/calling/63/wav_segmented/keep2"),
         type=str
     )
     parser.add_argument(
         "--trash_dir",
         # default=r"D:\Users\tianx\HuggingDatasets\international_voice\data\sea-idn\audio_lib_hkg_1\es-MX-backup\trash",
+        default=r"D:\Users\tianx\HuggingSpaces\cc_audio_8\data\temp\trash",
         # default=(project_path / "data/calling/63/wav_segmented/trash"),
         type=str
     )
         #     continue
         filename = filename.as_posix()
+        try:
+            outputs1 = client.predict(
+                audio_t=handle_file(filename),
+                model_name="voicemail-en-ph-2-l3-ch4-cnn",
+                ground_true="Hello!!",
+                api_name="/when_click_cls_button"
+            )
+        except Exception:
+            continue
         outputs1 = json.loads(outputs1)
         label1 = outputs1["label"]
         prob1 = outputs1["prob"]
         outputs2 = client.predict(
             audio_t=handle_file(filename),
+            model_name="sound-8-l3-ch32-cnn",
             ground_true="Hello!!",
             api_name="/when_click_cls_button"
         )

examples/sound_classification_by_lstm/run_batch.sh CHANGED Viewed

@@ -3,25 +3,25 @@
 # sound ch64
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
---label_plan 2 \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-3-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
---label_plan 3 \
---config_file "yaml/lstm-classifier-3-l3-ch64.yaml"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-4-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
---label_plan 4 \
---config_file "yaml/lstm-classifier-4-l3-ch64.yaml"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-8-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
---label_plan 8 \
---config_file "yaml/lstm-classifier-8-l3-ch64.yaml"
 # pretrained voicemail
@@ -34,23 +34,23 @@ sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name fi
 # voicemail ch64
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-ph-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-PH/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-sg-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-SG/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-us-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-US/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
 sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-mx-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-MX/wav_finished/*/*.wav" \
@@ -58,57 +58,57 @@ sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name fi
 --config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
 --pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-pe-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-PE/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-fi-fi-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/fi-FI/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-id-id-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/id-ID/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ja-jp-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ja-JP/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ko-kr-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ko-KR/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ms-my-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ms-MY/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-pt-br-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/pt-BR/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-th-th-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/th-TH/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
-sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-zh-tw-2-l3-ch64-lstm \
---filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/zh-TW/wav_finished/*/*.wav" \
---label_plan 2-voicemail \
---config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
---pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"

 # sound ch64
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+#--label_plan 2 \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-3-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+#--label_plan 3 \
+#--config_file "yaml/lstm-classifier-3-l3-ch64.yaml"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-4-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+#--label_plan 4 \
+#--config_file "yaml/lstm-classifier-4-l3-ch64.yaml"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name sound-8-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/*/wav_finished/*/*.wav" \
+#--label_plan 8 \
+#--config_file "yaml/lstm-classifier-8-l3-ch64.yaml"
 # pretrained voicemail
 # voicemail ch64
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-ph-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-PH/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-sg-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-SG/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-en-us-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/en-US/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
 sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-mx-2-l3-ch64-lstm \
 --filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-MX/wav_finished/*/*.wav" \
 --config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
 --pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-es-pe-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/es-PE/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-fi-fi-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/fi-FI/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-id-id-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/id-ID/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ja-jp-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ja-JP/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ko-kr-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ko-KR/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-ms-my-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/ms-MY/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-pt-br-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/pt-BR/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-th-th-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/th-TH/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"
+#
+#sh run.sh --stage 0 --stop_stage 6 --system_version centos --file_folder_name file_dir --final_model_name voicemail-zh-tw-2-l3-ch64-lstm \
+#--filename_patterns "/data/tianxing/PycharmProjects/datasets/voicemail/zh-TW/wav_finished/*/*.wav" \
+#--label_plan 2-voicemail \
+#--config_file "yaml/lstm-classifier-2-l3-ch64.yaml" \
+#--pretrained_model "/data/tianxing/PycharmProjects/cc_audio_8/trained_models/voicemail-2-l3-ch64-lstm.zip"

examples/sound_classification_by_lstm/step_9_evaluation_onnx_model.py CHANGED Viewed

@@ -93,6 +93,12 @@ def main():
         filename = row["filename"]
         ground_true = row["labels"]
         # infer
         sample_rate, waveform = wavfile.read(filename)
         waveform = waveform[:16000]
@@ -101,56 +107,56 @@ def main():
         waveform = torch.unsqueeze(waveform, dim=0)
         waveform = waveform.to(device)
-        spec = wave_to_mel_spectrogram(waveform) + 1e-6
-        spec = spec.log()
-        # shape = [b, f, t]
-        spec = spec.transpose(1, 2)
-        # shape = [b, t, f]
-        inputs = spec
-        lstm_layer_param = config.lstm_layer_param
-        num_layers = lstm_layer_param["num_layers"]
-        hidden_size = lstm_layer_param["hidden_size"]
-        h = torch.zeros(size=(num_layers, 1, hidden_size), dtype=torch.float32)
-        c = torch.zeros(size=(num_layers, 1, hidden_size), dtype=torch.float32)
-        input_feed = {
-            "inputs": inputs.numpy(),
-            "h": h.numpy(),
-            "c": c.numpy(),
-        }
-        output_names = [
-            "logits", "new_h", "new_c"
-        ]
-        logits, new_h, new_c = ort_session.run(output_names, input_feed)
-        # print(f"logits: {logits.shape}")
-        # print(f"new_h: {new_h.shape}")
-        # print(f"new_c: {new_c.shape}")
-        logits = torch.tensor(logits, dtype=torch.float32)
-        probs = torch.nn.functional.softmax(logits, dim=-1)
-        label_idx = torch.argmax(probs, dim=-1)
-        label_idx = label_idx.cpu()
-        probs = probs.cpu()
-        label_idx = label_idx.numpy()[0]
-        prob = probs.numpy()[0][label_idx]
-        label_str = vocabulary.get_token_from_index(label_idx, namespace="labels")
-        correct = 1 if label_str == ground_true else 0
         row_ = {
             **row,
-            "onnx_predict": label_str,
-            "onnx_prob": prob,
-            "onnx_correct": correct,
         }
         result.append(row_)
         total_examples += 1
-        total_correct += correct
         accuracy = total_correct / total_examples
         progress_bar.update(1)

         filename = row["filename"]
         ground_true = row["labels"]
+        lstm_layer_param = config.lstm_layer_param
+        num_layers = lstm_layer_param["num_layers"]
+        hidden_size = lstm_layer_param["hidden_size"]
+        h = torch.zeros(size=(num_layers, 1, hidden_size), dtype=torch.float32)
+        c = torch.zeros(size=(num_layers, 1, hidden_size), dtype=torch.float32)
         # infer
         sample_rate, waveform = wavfile.read(filename)
         waveform = waveform[:16000]
         waveform = torch.unsqueeze(waveform, dim=0)
         waveform = waveform.to(device)
         row_ = {
             **row,
         }
+        for idx in range(4):
+            begin = idx * 4000
+            end = begin + 4000
+            waveform_ = waveform[:, begin: end]
+            spec = wave_to_mel_spectrogram(waveform_) + 1e-6
+            spec = spec.log()
+            # shape = [b, f, t]
+            spec = spec.transpose(1, 2)
+            # shape = [b, t, f]
+            inputs = spec
+            input_feed = {
+                "inputs": inputs.numpy(),
+                "h": h.numpy(),
+                "c": c.numpy(),
+            }
+            output_names = [
+                "logits", "new_h", "new_c"
+            ]
+            logits, new_h, new_c = ort_session.run(output_names, input_feed)
+            # print(f"logits: {logits.shape}")
+            # print(f"new_h: {new_h.shape}")
+            # print(f"new_c: {new_c.shape}")
+            logits = torch.tensor(logits, dtype=torch.float32)
+            probs = torch.nn.functional.softmax(logits, dim=-1)
+            label_idx = torch.argmax(probs, dim=-1)
+            label_idx = label_idx.cpu()
+            probs = probs.cpu()
+            label_idx = label_idx.numpy()[0]
+            prob = probs.numpy()[0][label_idx]
+            label_str = vocabulary.get_token_from_index(label_idx, namespace="labels")
+            correct = 1 if label_str == ground_true else 0
+            row_[f"onnx_predict_{idx}"] = label_str
+            row_[f"onnx_prob_{idx}"] = prob
+            row_[f"onnx_correct_{idx}"] = correct
         result.append(row_)
         total_examples += 1
+        total_correct += row_["onnx_correct_3"]
         accuracy = total_correct / total_examples
         progress_bar.update(1)

log.py ADDED Viewed

	@@ -0,0 +1,257 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+from datetime import datetime
+import logging
+from logging.handlers import RotatingFileHandler, TimedRotatingFileHandler
+import os
+from zoneinfo import ZoneInfo  # Python 3.9+ 自带，无需安装
+def get_converter(tz_info: str = "Asia/Shanghai"):
+    def converter(timestamp):
+        dt = datetime.fromtimestamp(timestamp, ZoneInfo(tz_info))
+        result = dt.timetuple()
+        return result
+    return converter
+def setup_stream(tz_info: str = "Asia/Shanghai"):
+    fmt = "%(asctime)s|%(name)s|%(levelname)s|%(filename)s|%(lineno)d|%(message)s"
+    formatter = logging.Formatter(
+        fmt=fmt,
+        datefmt="%Y-%m-%d %H:%M:%S %z"
+    )
+    formatter.converter = get_converter(tz_info)
+    stream_handler = logging.StreamHandler()
+    stream_handler.setLevel(logging.INFO)
+    stream_handler.setFormatter(formatter)
+    # main
+    main_logger = logging.getLogger("main")
+    main_logger.addHandler(stream_handler)
+    # http
+    http_logger = logging.getLogger("http")
+    http_logger.addHandler(stream_handler)
+    # api
+    api_logger = logging.getLogger("api")
+    api_logger.addHandler(stream_handler)
+    logging.basicConfig(
+        level=logging.DEBUG,
+        datefmt="%a, %d %b %Y %H:%M:%S",
+        handlers=[
+        ]
+    )
+    return
+def setup_size_rotating(log_directory: str, tz_info: str = "Asia/Shanghai"):
+    fmt = "%(asctime)s|%(name)s|%(levelname)s|%(filename)s|%(lineno)d|%(message)s"
+    formatter = logging.Formatter(
+        fmt=fmt,
+        datefmt="%Y-%m-%d %H:%M:%S %z"
+    )
+    formatter.converter = get_converter(tz_info)
+    stream_handler = logging.StreamHandler()
+    stream_handler.setLevel(logging.INFO)
+    stream_handler.setFormatter(formatter)
+    # main
+    main_logger = logging.getLogger("main")
+    main_logger.addHandler(stream_handler)
+    main_info_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "main.log"),
+        maxBytes=100*1024*1024,  # 100MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    main_info_file_handler.setLevel(logging.INFO)
+    main_info_file_handler.setFormatter(formatter)
+    main_logger.addHandler(main_info_file_handler)
+    # http
+    http_logger = logging.getLogger("http")
+    http_logger.addHandler(stream_handler)
+    http_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "http.log"),
+        maxBytes=100*1024*1024,  # 100MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    http_file_handler.setLevel(logging.DEBUG)
+    http_file_handler.setFormatter(formatter)
+    http_logger.addHandler(http_file_handler)
+    # api
+    api_logger = logging.getLogger("api")
+    api_logger.addHandler(stream_handler)
+    api_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "api.log"),
+        maxBytes=10*1024*1024,  # 10MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    api_file_handler.setLevel(logging.DEBUG)
+    api_file_handler.setFormatter(formatter)
+    api_logger.addHandler(api_file_handler)
+    # alarm
+    alarm_logger = logging.getLogger("alarm")
+    alarm_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "alarm.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    alarm_file_handler.setLevel(logging.DEBUG)
+    alarm_file_handler.setFormatter(formatter)
+    alarm_logger.addHandler(alarm_file_handler)
+    debug_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "debug.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    debug_file_handler.setLevel(logging.DEBUG)
+    debug_file_handler.setFormatter(formatter)
+    info_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "info.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    info_file_handler.setLevel(logging.INFO)
+    info_file_handler.setFormatter(formatter)
+    error_file_handler = RotatingFileHandler(
+        filename=os.path.join(log_directory, "error.log"),
+        maxBytes=1*1024*1024,  # 1MB
+        encoding="utf-8",
+        backupCount=2,
+    )
+    error_file_handler.setLevel(logging.ERROR)
+    error_file_handler.setFormatter(formatter)
+    logging.basicConfig(
+        level=logging.DEBUG,
+        datefmt="%a, %d %b %Y %H:%M:%S",
+        handlers=[
+            debug_file_handler,
+            info_file_handler,
+            error_file_handler,
+        ]
+    )
+def setup_time_rotating(log_directory: str):
+    fmt = "%(asctime)s - %(name)s - %(levelname)s  %(filename)s:%(lineno)d >  %(message)s"
+    stream_handler = logging.StreamHandler()
+    stream_handler.setLevel(logging.INFO)
+    stream_handler.setFormatter(logging.Formatter(fmt))
+    # main
+    main_logger = logging.getLogger("main")
+    main_logger.addHandler(stream_handler)
+    main_info_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "main.log"),
+        encoding="utf-8",
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    main_info_file_handler.setLevel(logging.INFO)
+    main_info_file_handler.setFormatter(logging.Formatter(fmt))
+    main_logger.addHandler(main_info_file_handler)
+    # http
+    http_logger = logging.getLogger("http")
+    http_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "http.log"),
+        encoding='utf-8',
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    http_file_handler.setLevel(logging.DEBUG)
+    http_file_handler.setFormatter(logging.Formatter(fmt))
+    http_logger.addHandler(http_file_handler)
+    # api
+    api_logger = logging.getLogger("api")
+    api_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "api.log"),
+        encoding='utf-8',
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    api_file_handler.setLevel(logging.DEBUG)
+    api_file_handler.setFormatter(logging.Formatter(fmt))
+    api_logger.addHandler(api_file_handler)
+    # alarm
+    alarm_logger = logging.getLogger("alarm")
+    alarm_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "alarm.log"),
+        encoding="utf-8",
+        when="midnight",
+        interval=1,
+        backupCount=7
+    )
+    alarm_file_handler.setLevel(logging.DEBUG)
+    alarm_file_handler.setFormatter(logging.Formatter(fmt))
+    alarm_logger.addHandler(alarm_file_handler)
+    debug_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "debug.log"),
+        encoding="utf-8",
+        when="D",
+        interval=1,
+        backupCount=7
+    )
+    debug_file_handler.setLevel(logging.DEBUG)
+    debug_file_handler.setFormatter(logging.Formatter(fmt))
+    info_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "info.log"),
+        encoding="utf-8",
+        when="D",
+        interval=1,
+        backupCount=7
+    )
+    info_file_handler.setLevel(logging.INFO)
+    info_file_handler.setFormatter(logging.Formatter(fmt))
+    error_file_handler = TimedRotatingFileHandler(
+        filename=os.path.join(log_directory, "error.log"),
+        encoding="utf-8",
+        when="D",
+        interval=1,
+        backupCount=7
+    )
+    error_file_handler.setLevel(logging.ERROR)
+    error_file_handler.setFormatter(logging.Formatter(fmt))
+    logging.basicConfig(
+        level=logging.DEBUG,
+        datefmt="%a, %d %b %Y %H:%M:%S",
+        handlers=[
+            debug_file_handler,
+            info_file_handler,
+            error_file_handler,
+        ]
+    )
+if __name__ == "__main__":
+    pass

main.py CHANGED Viewed

@@ -151,7 +151,8 @@ def main():
     blocks.queue().launch(
         share=False if platform.system() == "Windows" else False,
         server_name="127.0.0.1" if platform.system() == "Windows" else "0.0.0.0",
-        server_port=args.server_port
     )
     return

     blocks.queue().launch(
         share=False if platform.system() == "Windows" else False,
         server_name="127.0.0.1" if platform.system() == "Windows" else "0.0.0.0",
+        server_port=args.server_port,
+        show_error=True if platform.system() == "Windows" else False,
     )
     return

project_settings.py CHANGED Viewed

@@ -9,11 +9,17 @@ from toolbox.os.environment import EnvironmentManager
 project_path = os.path.abspath(os.path.dirname(__file__))
 project_path = Path(project_path)
 environment = EnvironmentManager(
     path=os.path.join(project_path, "dotenv"),
     env=os.environ.get("environment", "dev"),
 )
-if __name__ == '__main__':
     pass

 project_path = os.path.abspath(os.path.dirname(__file__))
 project_path = Path(project_path)
+log_directory = project_path / "logs"
+log_directory.mkdir(parents=True, exist_ok=True)
+temp_directory = project_path / "temp"
+temp_directory.mkdir(parents=True, exist_ok=True)
 environment = EnvironmentManager(
     path=os.path.join(project_path, "dotenv"),
     env=os.environ.get("environment", "dev"),
 )
+if __name__ == "__main__":
     pass

requirements.txt CHANGED Viewed

@@ -16,3 +16,4 @@ onnxruntime
 scipy
 onnx
 onnxruntime

 scipy
 onnx
 onnxruntime
+tenacity