摘要:随着时代进步和技术发展,手机硬件不断更新和提高,手机内存不断增大,现在手机内存最低配已经是256GB,保存的各种APP的电子数据的数据量越来越大,包括各种聊天软件。本文内容是针对微信聊天中的海量语音聊天记录,转换成文本内容,并还原到原始聊天环境中进行展示,以上完整过程的新方法的研究和探索。
关键词:司法鉴定 电子数据 聊天软件 微信 海量 语音转文本
第一章 研究背景
在司法鉴定实践中,微信作为主要聊天工具,办案机关,包括公检法,把涉案检材送检司法鉴定机构,进行提取和固定后,需要进行查看和分析,对于手机取证报告中微信聊天的海量语音内容,如果每条内容都进行试听,正确识别语音内容,需要花费大量时间,大多数案件的办案时间有限,所以,需要想办法尝试把微信的语音内容,转换成文本,并且在原始聊天环境中进行展示,方便办案机关和鉴定人员进行快速阅读,提高办案和鉴定效率。
第二章 技术难点
由于没有可以参考的实现案例,经研究和总结,新方法的实现,有以下难点:
2.1环境噪声:微信音频可能在各种环境中录制,如嘈杂的街道、有背景音乐的场所等。这些环境噪声会干扰语音识别系统的准确性,导致转文本出现错误或不清晰的情况。
2.2语音模糊:说话人可能距离录音设备较远、发音不清晰或者说话速度过快等,这些因素会使语音信号变得模糊,增加转文本的难度。
2.3地域方言:中国地域广阔,存在着丰富多样的方言。微信音频中可能包含各种方言,而通用的语音识别技术可能对方言的识别能力有限,无法准确转换。
2.4保密要求:司法鉴定涉及的微信音频可能包含敏感信息,如个人隐私、商业机密等。在转文本过程中,需要确保这些数据的安全,防止数据泄露。
2.5合规处理:必须遵循相关的数据保护法律法规,对音频数据的处理和存储进行合规操作,这增加了鉴定工作的复杂性。
2.6要开发一个取证报告管理系统,该系统可以把现有的取证报告转换后导入其中,同时可以显示文本聊天内容、播放语音音频内容,同时可以展示转换后的语音文本内容。
2.7要寻找一个离线语音文本转换软件,由于电子数据涉密,不可能使用在线的语音库进行转换,而且该转换软件能够进行大批量转换。
第三章 语音转文本案例实践中的痛点
某诈骗案,涉案手机约100部,其中首要嫌疑人的手机,送检后,经提取固定,约有11万个海量微信语音文件,语音转文本有以下痛点:
3.1处理时间长:海量的微信音频文件需要耗费大量的时间进行转文本处理。即使使用高效的语音识别软件,处理大规模数据仍然需要等待较长时间,影响鉴定工作的效率。
3.2人工辅助耗时:当语音识别结果不准确时,需要人工进行辅助修正。面对海量音频,人工处理的工作量巨大,且容易出现疲劳和人为误差。
3.3专业术语和特定语境:在某些领域,如医学、法律、技术等,微信音频中可能包含大量的专业术语和特定的行业语境。语音识别系统可能无法准确理解这些专业词汇,导致转文本错误。
3.4情感和语气的影响:语音中的情感和语气信息可能会对语音识别产生影响。例如,激动的情绪可能导致语音的音高、语速等发生变化,从而影响识别的准确性。
第四章 应用准备
4.1开发取证报告管理系统。该系统前端使用HTML、CSS和JavaScript构建用户界面,后台数据库采用MySql5.7数据库,该系统有以下功能:
(1)能够导入csv格式的取证报告,导入分为私聊和群聊两种格式。
(2)能够按时间线展示报告内容,目前主要是微信聊天记录。
(3)能实现权限管理,可以按办案单位、办案人员、案件、检材等条件进行授权。
(4)能在原始聊天环境展示语音聊天的文本内容,转换好的文本内容能和对应的聊天记录建立对应关系。
4.2经过多方面比较和大量测试,确定语音转文本工具为:音频转文字小工具离线版。该工具具有以下特点:
(1)拥有本地语音库,能够离线运行,做到完全保密。
(2)能够大批量转换多个文件。
(3)经过多次测试,文本转换正确率不低于95%,方言的转换正确率不低于90%,能够保证使用效果。
第五章 海量微信语音内容转文本新方法实操
(内网离线完成)
5.1生成原始数据
按照《电子数据司法鉴定通用实施规范》,运行亚手机取证大师,提取手机备份,分析完成后,把微信聊天生成csv格式的取证报告,同时还要生成网页格式的取证报告(用于提取微信语音文件)。
5.2数据导入取证报告管理系统
利用开发完成的取证报告管理系统,把csv格式的取证报告导入系统。
5.3数据处理
查看csv格式报告导入到报告管理系统的后台数据库,提取amr文件对应的记录,大约有11万条记录,每条记录都有唯一id,后面需要利用这个id,把语音转换文本和导入记录建立对应关系。
5.4提取语音文件
从网页版取证报告的资源文件中,提取微信语音amr文件,用上面的id重命名11万个amr文件。
5.5语音转码
由于amr文件不能直接转换文本,需要先进行转码,把11万个amr文件转换成mp3格式,此步骤需要时间很长。
5.6语音转文本
用音频转文字小工具离线版,批量把11万个MP3文件转换成文本文件,转换后的文本文件,文件名称不变,扩展名为txt,此步骤需要时间很长。
5.7文本文件上传服务器,完成全部操作。
第六章 结论与展望
6.1研究结论
新方法实现后,能够实现在原始聊天环境快速查看海量微信语音文本内容,能够按照群组名称、账号、昵称、发送时间、聊天内容等条件进行快速查询分析,充分提高办案和鉴定效率。
6.2研究展望
由于本方法是针对微信的取证报告进行的二次开发,尝试在原始环境显示聊天语音文本,目前能显示文本聊天内容、播放音频聊天内容,发送内容中的图片不能显示,留待下个版本实现,后期继续针对其他聊天软件进行二次开发。
参考文献
1.GB/T29362-2023《法庭科学电子数据搜索检验规程》;
2.GB/T29360-2023《法庭科学电子数据恢复检验规程》;
3.SF/ZJD0400001—2014《电子数据司法鉴定通用实施规范》;
4.刘浩阳等.《电子数据取证》2015-11-1。