Spaces:
Running
SEA-MEX优化效果分析
优化项
优化项:
(1)说话检测模型更新,并改用了更大的 ch32 模型而不是 ch4。
(2)语音信箱模型更新,使用的也是 ch32 的模型。
(3)说话检测和语音信箱模型扩容,从原来的 2 pod 改成 4 pod。
(4)早媒体检测改成了 vad 检测。即早媒体阶段检测到连续2秒的人声就挂断。
模拟测试
模拟测试使用 995 通 SEA-MEX 的录音。
大模型标注的分布实际情况
接通:480,48.3%
语音信箱:465,46.8%
静音:7,0.7%
响铃:3:0.3%
人声:3,0.3%
噪音:1,0.1%
未接通:513,51.7%
运营商提示音:274,27.6%
留言信箱:111,11.2%
响铃:113,11.4%
音乐:8,0.8%
静音:7,0.7%
备注:
(1)接通后的 3 个人声,其中有 2 个是 ”像噪音一样的机器音“,1个是真人。
(2)接通后的 1 个噪音,其实是真人。
大模型的标注并不是很准。
模拟测试结果
测试结果:
呼出未接-用户响铃拒接:197,19.8%
人声:4,0.4%
无法接通-线路繁忙:2,0.2%
语音信箱:94,9.45%
语音信箱(接通前):697,70.05%
正常结束-用户挂断:1,0.1%
备注:
(1)未接通:197+697=896,接通:4+94+1=99。接通率:10%左右。
(2)其中人声 4 个,有1通是”像噪音一样的机器音“。其它 3 通都是真人。
主要是 vad 早媒体检测过滤掉了大部分的”语音信箱“,使接通后的语音信箱变少了,转人工语音信箱漏识别也减少了。
didi1112-v3
总订单数:3561
早媒体语音信箱:1556,43.70%
运营商提示音:517,14.52%
用户忙:288,8.09%
语音信箱:879,24.68%
转人工:94,2.64%
用户挂断:64,1.80%
静音:44,1.24%
备注:
(1)根据 vad 早媒体检测预期,1556+517+288+879=3240=90.99% 都可能在早媒体检测识别。
(2)优化后,可接通率可能是:94+64+44=202=5.67%,如果再考虑一部分语音信箱漏识别,可估计为 10%。
(3)转人工的 94 个中,上次标注有 10 个语音信箱,13个其它语音信箱。
之前有一个结论:所有的用户自定义语音信箱都可以通过早媒体识别。
那么,13个 ”其它语音信箱“ 在早媒体阶段应该都可以识别。
那么,转人工中的语音信箱减少到 10 个,则 10/(94-13)=12.34%,转人工中的语音信箱占比 12.34%。
(4)再考虑到使用 vad 早媒体后,接通的语音信箱占比会减小,那么转人工的语音信箱应该还会减少,那么转人工的语音信箱占比可能会小于 10%。
didi1111
总订单数:3397
早媒体语音信箱:1131,33.29%
运营商提示音:567,16.69%
用户忙:206,6.06%
语音信箱:941,27.70%
转人工:127,3.74%
用户挂断:80,2.36%
备注:
(1)根据 vad 早媒体检测预期,1131+567+206+941=2845=83.75% 都可能在早媒体检测识别。
(2)优化后,可接通率可能是:127+80=207=6.09%,如果再考虑一部分语音信箱漏识别,可估计为 10%。
(3)转人工的 127 个中,上次标注有 17 个语音信箱,7 个其它语音信箱。
之前有一个结论:所有的用户自定义语音信箱都可以通过早媒体识别。
那么,7个 ”其它语音信箱“ 在早媒体阶段应该都可以识别。
那么,转人工中的语音信箱减少到 17 个,则 17/(127-7)=14.17%,转人工中的语音信箱占比 14.17%。
(4)再考虑到使用 vad 早媒体后,接通的语音信箱占比会减小,那么转人工的语音信箱应该还会减少,那么转人工的语音信箱占比可能会小于 10%。
真实通话的验证计划
(1)先拿 500个号码做一次测试,查看效果。 (2)如果效果有改进,再拿 500 个号码再测一次。