HoneyTian's picture
update
66bfb7e
|
raw
history blame
4.01 kB

SEA-MEX优化效果分析

优化项

优化项:
(1)说话检测模型更新,并改用了更大的 ch32 模型而不是 ch4。
(2)语音信箱模型更新,使用的也是 ch32 的模型。
(3)说话检测和语音信箱模型扩容,从原来的 2 pod 改成 4 pod。
(4)早媒体检测改成了 vad 检测。即早媒体阶段检测到连续2秒的人声就挂断。

模拟测试

模拟测试使用 995 通 SEA-MEX 的录音。

大模型标注的分布实际情况

接通:480,48.3%  
语音信箱:465,46.8%  
静音:7,0.7%  
响铃:3:0.3%  
人声:3,0.3%  
噪音:1,0.1%  

未接通:513,51.7%  
运营商提示音:274,27.6%  
留言信箱:111,11.2%  
响铃:113,11.4%  
音乐:8,0.8%  
静音:7,0.7%  

备注:
(1)接通后的 3 个人声,其中有 2 个是 ”像噪音一样的机器音“,1个是真人。
(2)接通后的 1 个噪音,其实是真人。

大模型的标注并不是很准。

模拟测试结果

测试结果:

呼出未接-用户响铃拒接:197,19.8%  
人声:4,0.4%  
无法接通-线路繁忙:2,0.2%  
语音信箱:94,9.45%  
语音信箱(接通前):697,70.05%  
正常结束-用户挂断:1,0.1%  

备注:
(1)未接通:197+697=896,接通:4+94+1=99。接通率:10%左右。
(2)其中人声 4 个,有1通是”像噪音一样的机器音“。其它 3 通都是真人。

主要是 vad 早媒体检测过滤掉了大部分的”语音信箱“,使接通后的语音信箱变少了,转人工语音信箱漏识别也减少了。

didi1112-v3

总订单数:3561
早媒体语音信箱:1556,43.70%
运营商提示音:517,14.52%
用户忙:288,8.09%

语音信箱:879,24.68%
转人工:94,2.64%
用户挂断:64,1.80%
静音:44,1.24%

备注:
(1)根据 vad 早媒体检测预期,1556+517+288+879=3240=90.99% 都可能在早媒体检测识别。
(2)优化后,可接通率可能是:94+64+44=202=5.67%,如果再考虑一部分语音信箱漏识别,可估计为 10%。
(3)转人工的 94 个中,上次标注有 10 个语音信箱,13个其它语音信箱。
之前有一个结论:所有的用户自定义语音信箱都可以通过早媒体识别。 那么,13个 ”其它语音信箱“ 在早媒体阶段应该都可以识别。 那么,转人工中的语音信箱减少到 10 个,则 10/(94-13)=12.34%,转人工中的语音信箱占比 12.34%。 (4)再考虑到使用 vad 早媒体后,接通的语音信箱占比会减小,那么转人工的语音信箱应该还会减少,那么转人工的语音信箱占比可能会小于 10%。

didi1111

总订单数:3397
早媒体语音信箱:1131,33.29%
运营商提示音:567,16.69%
用户忙:206,6.06%

语音信箱:941,27.70%
转人工:127,3.74%
用户挂断:80,2.36%

备注:
(1)根据 vad 早媒体检测预期,1131+567+206+941=2845=83.75% 都可能在早媒体检测识别。
(2)优化后,可接通率可能是:127+80=207=6.09%,如果再考虑一部分语音信箱漏识别,可估计为 10%。
(3)转人工的 127 个中,上次标注有 17 个语音信箱,7 个其它语音信箱。
之前有一个结论:所有的用户自定义语音信箱都可以通过早媒体识别。 那么,7个 ”其它语音信箱“ 在早媒体阶段应该都可以识别。 那么,转人工中的语音信箱减少到 17 个,则 17/(127-7)=14.17%,转人工中的语音信箱占比 14.17%。 (4)再考虑到使用 vad 早媒体后,接通的语音信箱占比会减小,那么转人工的语音信箱应该还会减少,那么转人工的语音信箱占比可能会小于 10%。

真实通话的验证计划

(1)先拿 500个号码做一次测试,查看效果。 (2)如果效果有改进,再拿 500 个号码再测一次。