湖北中新科维检验检测有限公司(计算机司法鉴定所)

全国咨询热线:0717-6228598


司法鉴定许可证


信息系统工程监理单位资质证书

您当前的位置: 首页 司法鉴定

关于海量微信聊天语音文件 转文本在电子数据司法鉴定实践中 新方法的研究和探索

2023-08-23 10:00 司法鉴定 作者:张兢、李剑锋、徐焱昌

摘要:随着时代进步和技术发展,手机硬件不断更新和提高,手机内存不断增大,现在手机内存最低配已经是256GB,保存的各种APP的电子数据的数据量越来越大,包括各种聊天软件。本文内容是针对微信聊天中的海量语音聊天记录,转换成文本内容,并还原到原始聊天环境中进行展示,以上完整过程的新方法的研究和探索。

 

关键词:司法鉴定 电子数据 聊天软件 微信 海量 语音转文本

 

第一章 研究背景

在司法鉴定实践中,微信作为主要聊天工具,办案机关,包括公检法,把涉案检材送检司法鉴定机构,进行提取和固定后,需要进行查看和分析,对于手机取证报告中微信聊天的海量语音内容,如果每条内容都进行试听,正确识别语音内容,需要花费大量时间,大多数案件的办案时间有限,所以,需要想办法尝试把微信的语音内容,转换成文本,并且在原始聊天环境中进行展示,方便办案机关和鉴定人员进行快速阅读,提高办案和鉴定效率。

 

第二章 技术难点

由于没有可以参考的实现案例,经研究和总结,新方法的实现,有以下难点:

2.1环境噪声:微信音频可能在各种环境中录制,如嘈杂的街道、有背景音乐的场所等。这些环境噪声会干扰语音识别系统的准确性,导致转文本出现错误或不清晰的情况。

2.2语音模糊:说话人可能距离录音设备较远、发音不清晰或者说话速度过快等,这些因素会使语音信号变得模糊,增加转文本的难度。

2.3地域方言:中国地域广阔,存在着丰富多样的方言。微信音频中可能包含各种方言,而通用的语音识别技术可能对方言的识别能力有限,无法准确转换。

2.4保密要求:司法鉴定涉及的微信音频可能包含敏感信息,如个人隐私、商业机密等。在转文本过程中,需要确保这些数据的安全,防止数据泄露。

2.5合规处理:必须遵循相关的数据保护法律法规,对音频数据的处理和存储进行合规操作,这增加了鉴定工作的复杂性。

2.6要开发一个取证报告管理系统,该系统可以把现有的取证报告转换后导入其中,同时可以显示文本聊天内容、播放语音音频内容,同时可以展示转换后的语音文本内容。

2.7要寻找一个离线语音文本转换软件,由于电子数据涉密,不可能使用在线的语音库进行转换,而且该转换软件能够进行大批量转换。

 

第三章 语音转文本案例实践中的痛点

某诈骗案,涉案手机约100部,其中首要嫌疑人的手机,送检后,经提取固定,约有11万个海量微信语音文件,语音转文本有以下痛点:

3.1处理时间长:海量的微信音频文件需要耗费大量的时间进行转文本处理。即使使用高效的语音识别软件,处理大规模数据仍然需要等待较长时间,影响鉴定工作的效率。

3.2人工辅助耗时:当语音识别结果不准确时,需要人工进行辅助修正。面对海量音频,人工处理的工作量巨大,且容易出现疲劳和人为误差。

3.3专业术语和特定语境:在某些领域,如医学、法律、技术等,微信音频中可能包含大量的专业术语和特定的行业语境。语音识别系统可能无法准确理解这些专业词汇,导致转文本错误。

3.4情感和语气的影响:语音中的情感和语气信息可能会对语音识别产生影响。例如,激动的情绪可能导致语音的音高、语速等发生变化,从而影响识别的准确性。

 

第四章 应用准备

4.1开发取证报告管理系统。该系统前端使用HTML、CSS和JavaScript构建用户界面,后台数据库采用MySql5.7数据库,该系统有以下功能:

1)能够导入csv格式的取证报告,导入分为私聊和群聊两种格式。

2)能够按时间线展示报告内容,目前主要是微信聊天记录。

3)能实现权限管理,可以按办案单位、办案人员、案件、检材等条件进行授权。

4)能在原始聊天环境展示语音聊天的文本内容,转换好的文本内容能和对应的聊天记录建立对应关系。

4.2经过多方面比较和大量测试,确定语音转文本工具为:音频转文字小工具离线版。该工具具有以下特点:

1)拥有本地语音库,能够离线运行,做到完全保密。

2)能够大批量转换多个文件。

3)经过多次测试,文本转换正确率不低于95%,方言的转换正确率不低于90%,能够保证使用效果。

 

第五章 海量微信语音内容转文本新方法实操

(内网离线完成)

5.1生成原始数据

按照《电子数据司法鉴定通用实施规范》,运行亚手机取证大师,提取手机备份,分析完成后,把微信聊天生成csv格式的取证报告,同时还要生成网页格式的取证报告(用于提取微信语音文件)。

5.2数据导入取证报告管理系统

利用开发完成的取证报告管理系统,把csv格式的取证报告导入系统。

5.3数据处理

查看csv格式报告导入到报告管理系统的后台数据库,提取amr文件对应的记录,大约有11万条记录,每条记录都有唯一id,后面需要利用这个id,把语音转换文本和导入记录建立对应关系。

5.4提取语音文件

从网页版取证报告的资源文件中,提取微信语音amr文件,用上面的id重命名11万个amr文件。

5.5语音转码

由于amr文件不能直接转换文本,需要先进行转码,把11万个amr文件转换成mp3格式,此步骤需要时间很长。

5.6语音转文本

用音频转文字小工具离线版,批量把11万个MP3文件转换成文本文件,转换后的文本文件,文件名称不变,扩展名为txt,此步骤需要时间很长。

5.7文本文件上传服务器,完成全部操作。

 

第六章 结论与展望

6.1研究结论

新方法实现后,能够实现在原始聊天环境快速查看海量微信语音文本内容,能够按照群组名称、账号、昵称、发送时间、聊天内容等条件进行快速查询分析,充分提高办案和鉴定效率。

6.2研究展望

由于本方法是针对微信的取证报告进行的二次开发,尝试在原始环境显示聊天语音文本,目前能显示文本聊天内容、播放音频聊天内容,发送内容中的图片不能显示,留待下个版本实现,后期继续针对其他聊天软件进行二次开发。

 

参考文献

1.GB/T29362-2023《法庭科学电子数据搜索检验规程》;

2.GB/T29360-2023《法庭科学电子数据恢复检验规程》;

3.SF/ZJD0400001—2014《电子数据司法鉴定通用实施规范》;

4.刘浩阳等.《电子数据取证》2015-11-1。