生物特征识别技术受追捧,声纹识别在金融支付应用待完善,苏州seo网络推广主要作用
栏目:网络推广 发布时间:2025-05-09
作者|电子商务与电子支付国家工程实验室 在当今“账户无处不在、密码无处不在”的时代,人们时常因忘记或遗失密码而感到困扰。生物识别技术的问世,无疑为人们提 ... 生物特征识别技术受追捧,声纹识别在金融支付应用待完善
    作者|电子商务与电子支付国家工程实验室

    在当今“账户无处不在、密码无处不在”的时代,人们时常因忘记或遗失密码而感到困扰。生物识别技术的问世,无疑为人们提供了更加便捷、高效的服务途径。常见的生物特征包括指纹、掌纹、人脸、虹膜、视网膜、声纹以及签名等。在这些特征中,语音作为人与人之间最直接、最便捷的交流方式,声纹识别技术自然而然地受到了广泛的喜爱和追捧。声纹识别技术的应用领域极为广泛,几乎涵盖了人们日常生活的方方面面。

    金融机构中,声纹识别技术的应用范围十分广泛,且其受欢迎程度持续攀升。在将这项技术正式应用于线上金融系统之前,相关机构通常会对其进行评测,并测试声纹识别系统的各项性能指标。

    然而,当前在金融支付行业中,声纹识别技术的应用尚未形成一套统一的评估准则,且在实施过程中缺乏相应的指导文件。由于各机构制定的标准互不相同,缺乏一个被业界广泛认可的、权威的评测库及评价体系,这无疑为声纹技术在金融领域的广泛应用和推广设置了重重障碍。考虑到金融领域的独特性和关键地位,中国银联电子商务与电子支付国家工程实验室携手清华大学信息技术研究院的语音与语言技术中心、中国建设银行以及北京得意音通技术有限责任公司等机构,共同推进合作。在此过程中,针对声纹识别技术,它们开展了一系列深入研究,并初步构建了评测体系、指标、库以及工具。依据相关研究成果,我们对核心评估标准进行了归纳,明确了评估方式,构建了评估体系,详细阐述了体系的整体结构以及各模块的设计,最终编制了金融行业声纹识别评估手册。

    1 评测指标

    本章对标准化测试所包含的评估标准进行了详尽的阐释,详细阐述了这些指标的定义、相应的计算公式或统计技术,以及它们对声纹识别系统的重要参考价值;这些定义与安防生物识别领域的专业术语相吻合。在各个测试任务中,将根据实际需求,对文中所述的指标进行相应的计算。

    1.1 错误接受率

    错误接受率,即FAR,它反映了将伪造者的测试样本错误地认定为合法用户的比例,其数值可以通过以下公式进行计算得出:

    针对不同的评估体系,若其他标准保持不变,那么接受错误信息的比率越低,表明系统遭受假冒者非法侵入的可能性就越小,从而意味着系统的安全保障程度更高。

    1.2 错误拒绝率

    错误拒绝率,即FRR,衡量的是将目标个体的测试样本错误地判定为冒名者而予以拒绝的比例,这一比率可以通过以下公式进行计算得出:

    针对不同的评估体系,若保持其他标准不变,那么错误拒绝率越低,则意味着目标用户在使用过程中更易获得系统认可,从而反映出该系统的用户友好度更高。

    1.3 等错误率和检测错误权衡曲线

    错误接受率和错误拒绝率是衡量系统在安全性和用户体验方面性能的关键指标。针对同一系统,当调整系统参数时,错误接受率和错误拒绝率会呈现出此增彼减的现象,进而形成一条反映性能变化的曲线,这条曲线被称为检测错误权衡(Error, DET)曲线。一般来说,如果DET曲线整体更靠近原点,则说明系统的整体性能更为优越。

    等错误率,即Equal Error Rate的简称,是指在这条变化曲线上,错误接受率和错误拒绝率达到平衡的那个点的错误率。它是一个能够综合评估声纹识别系统安全性与用户体验的指标。等错误率的数值越低,表明系统的整体性能越佳。

    1.4 平均注册时间

    注册时间衡量的是声纹识别引擎完成注册操作所需的总时长,具体计算方法是以从调用注册接口开始到接口返回结果这段时间为标准。

    平均注册时间(简称ATT)指的是系统完成一次声纹注册所需时间的平均值,其计算方法可参照以下公式:

    对于各种系统而言,若其他指标保持不变,那么平均注册所需时间越短,就表明该系统的声纹注册效能更加出色;在同等软硬件配置下,单位时间内声纹注册业务的处理量也能相应增加。这一指标数值越低,表示性能越佳。

    1.5 平均确认时间

    确认时间系指声纹识别系统完成一次验证过程所需的时间长度,该时间长度从调用验证接口开始,至接口返回结果结束。

    系统完成一次声纹验证的平均所需时间,即平均确认时间(ime,*T),可通过以下公式进行计算:

    针对不同系统,若其他指标保持不变,平均确认时间越短,则表明该系统的声纹识别速度更快;在相同的硬件和软件配置下,单位时间内,通过声纹识别的业务处理量可显著增加。这一指标数值越低,其性能越佳。

    1.6 声纹注册完成率

    系统声纹注册业务的完成率,即TSR,是衡量该业务按预定计划顺利进行的比例,其计算方法如下所示,且该指标数值越高,表示效果越佳。

    1.7 声纹确认完成率

    系统声纹确认业务的执行效率(即声纹确认完成率,简称ate或VSR)反映了业务按预定计划顺利进行的比例,这一指标的计算公式如下,数值越高表示效果越佳。

    2 评测形式

    测试过程中推荐采用的测试数据包括未经压缩的PCM编码、采用单声道的数字语音,其精度为16位,且已消除零点漂移,而语音数据的采样率则是通过声纹初始化接口进行输入。

    2.1 基准达标测试

    基准测试数据在声纹建模和语音测试中,所涉及的录音环境与声纹建模语音及测试语音的录制条件较为接近,如信道一致、内容相似、录制时间相隔不长,且说话人的情绪与生理状态均未发生明显改变。

    在构建语音模型和进行语音测试的过程中,涉及了多位说话者,每位说话者都拥有多条语音样本;通过对该测试数据集的分析,待测系统的表现可以迅速评估,以判断其基本性能是否已达到初步适用的水平。

    2.2 鲁棒性测试

    声纹识别系统不仅存在个体间的差异,而且个体生理特征及使用环境的变化也会对其特性产生一定影响;此外,在实际应用中,系统在各种不同条件下的鲁棒性也是一个不可忽视的重要因素。

    本节主要对测试各项鲁棒性的进行说明。

    2.2.1 环境鲁棒性测试

    为了检验声纹识别系统在环境噪音中的适应性,该测试需涵盖多种噪音场景中的语音样本,诸如室内与户外的噪音条件。典型噪音场景包括车站、网吧、地铁站等,且在每个具体场景中还需进一步细分。

    2.2.2 信道鲁棒性测试

    为了检验声纹识别系统的抗干扰能力,所采用的信道鲁棒性测试数据集汇集了源自多种录音设备的语音样本,其中包括了诸如麦克风、手机、电脑等常见设备。在这些主要类别中,我们还可以进一步区分到具体的设备型号,例如在手机类别中,涵盖了华为、小米等多种品牌和型号。每一款设备都收集了多人的语音数据,每位参与者贡献了多条语音记录。

    2.2.3 内容鲁棒性测试

    为了检验声纹识别系统的语音内容稳定性,测试数据集汇集了多人的多段语音样本,这些样本的语音内容可能包括:数字序列、个人姓名、常用口头语、新闻报道等。

    2.2.4 时间鲁棒性测试