XR.FAN/FY
本篇是AR,VR等XR眼镜用翻译机识别中日韩英语声音并且翻译的方法,永久短网址是xr.fan/fy
左侧字幕+生成文本+chatgpt总结
概述
AR眼镜不仅能无限增强视力(见ar眼镜同时多开摄像头无限增强视觉篇),还可以无限增强听力,不过这些在古人看来都是神力的技术,即便现代人想用,也是不是免费的,要加钱。
还好听力需要的科技看起来比视力简单便宜,应该会先一步在眼镜里应用和普及。
实现原理
按照声音进眼镜的顺序,大概有这几个步骤。
- 硬件,麦克风收音
- 硬件,接收音频信号
- 软件,声音识别抓取语音
- 软件,语音转文字
- 软件,文字转其它语言
- 硬件,眼镜显示
那就一个一个开始分析吧。
麦克风收音
无损收音
无损收音就是声音采集没有任何音质损失,这在现实是不可能的,现实只能无限接近于无损。
无损收音只能在虚拟空间实现,常见的电脑播放声音,播出来之前都是无损的,声音识别在这之前是100%完整的音频信号。
这种无损收音技术已经非常成熟而且免费,也不需要用户做什么操作都是一键自动内录采集收音。
所以一般需要配置的地方,就是不同设备之间如何无损实时传输音频。
常用的方法是通过蓝牙接收,没蓝牙的电脑也建议弄个蓝牙适配器,不然走wifi和usb更麻烦。
然后在微软的软件商店,搜索Bluetooth Audio Receiver。或者直接打开下边连接,选择右边栏在 Microsoft Store 获取。问微软账号的话直接关闭就能下载了,无需登录。
https://apps.microsoft.com/store/detail/bluetooth-audio-receiver/9N9WCLWDQS5J
下载好后,手机蓝牙里找电脑名字连接电脑蓝牙,配对以后,打开这个Receiver软件就能看到手机名字,然后点一下手机名字,再选open connection,这样手机放音乐就可以在电脑里听到了。
也可以让手机麦克风也能进电脑。
安卓
这要用到手机麦克风app,例如麦克风扩音器,然后用上边方法在app里蓝牙连电脑,这样用手机讲话,声音就在电脑里了,但这是有损失的。
苹果
用手机麦克风给笔记本macbook声音,苹果自己家刚出个连续互通。https://support.apple.com/zh-cn/HT209037
这个对手机型号和版本有要求,手机更新后,mac重启再进设置,选声音,输入,然后就能看到手机的名字,选上以后,按照后边的方法用quick time点开录制,选好麦克风,拉大下边音量条就可以通过手机收声音,但也是有损失的。
有损收音
现实皆有损,专业的录音棚效果不是日常能做到的,而且用眼镜需要室内户外识别声音,那能选的麦克风,只有便携的全向和指向两种,一个所有方向收音,一个指定方向收音。
有线的便宜,而且有的不需要电源,室内用用还好。
直插型的,对设备要求很高不能有声,如果接笔记本,风扇就是最大噪音干扰源,还需要接延长线远离。
所以考虑到最广泛的使用场景,无线便携全向带电池的,那只有视频会议类别的麦克风是现阶段最适合的了,这里用的宜丽客LBT-SP02
会议用无线全向麦克风本身就是为多方向多人语音设计,支持减噪和消回声,相当于把电脑的麦克风喇叭分离出来,更容易找地方摆放。因为自带音箱,不仅可以用于自己收音,还可以让对方放音。
接收音频信号
这个取决于想要用来做什么,手机和电脑都是常见的接收设备,像本篇的翻译机,就需要win或者mac系统,那就只能在这两个选。
根据场景,室内无所谓,室外就要小和便携,macos最小的就是macbook air和mac mini
WIN的话选择很多,从小到电脑棒,再到掌机平板和笔记本都属于便携范围,这里当然是支持dp的可以直接显示的设备优先(见AR眼镜用USB-C的DP视频输出设备),然后是有hdmi输出接口的,通过hdmi到usbc转接器给眼镜也能用,hdmi无线给手机也行。基本上不支持dp的,也都有hdmi,所以这块不是什么问题。
要是只弄个主机,其实电脑棒就够。只是电脑棒近年发展几乎停滞,这个本该是现在眼镜最佳接收万能设备,翻遍网络只找到一款支持usbc dp的,meegopad t08,nreal尚未兼容,还好也有hdmi。
这里用的gpd win max2和macbook air做为便携本来收录音频。
winmax2大小只有macbook air的一半,两个lite那么大,可能是现在集成键盘鼠标触摸板电池屏幕一堆接口兼具cpu显卡性能的win系统适合打包在一起出门的机型,跟另一家最新6800U的平板onexplayer2比,onexplayer2无键鼠不能手持接口也少然后只是小点但是厚度一样代价是没有5g和双nvme。
虽然理论上winmax2这货有usbc3.2+usbc4.0+hdmi转接能同时支持3个以上眼镜,但由于usb4太新协议各家不太一样,现在nreal只有3.2的可用,如果3.2的不亮,需要找根usb4线连眼镜试试亮后,眼镜线再连就亮了。
声音识别抓取语音
一般声音收集软件,在系统播放声音时就能同步收音,只有在用麦克风收音的情况下需要讲一下。
正常用电脑的麦克风,是默认不传给喇叭的,因为开启可能会有回声,以及环境声音会同时在喇叭里播放基本就不用听东西了。但如果不让麦克风走播放通道,这时声音收集软件是获取不到麦克风声音的。
这在本篇需要用翻译机软件的情况下,等于外面的声音就无法获取了,尽管这个声音是有损失的,那也必须要开启。具体方法是
WIN系统
- 右键点右下角喇叭选声音,
- 点录制栏
- 双击默认设备,或者选择需要用到的麦克风,设置默认再点开
- 选侦听
- 然后点应用试试声,
- 如果有回声或者啸叫马上取消侦听,再点应用
- 有的电脑麦克风和喇叭设计的位置不对就无法用侦听
- 如果没问题,这时外部声音说话之类的,电脑喇叭就有声了。
调小音量也有助于减少回声啸叫
MAC系统
语音转文字
文字转其它语言
有文字,翻译这些文字就有各种服务和应用了。
本篇用的是讯飞双屏翻译机,支持中日韩英语四种语言实时识别和互翻。
讯飞有两种识别翻译方式,一个是自带一个领夹蓝牙麦克风,用于演讲时识别声音,再转换中日韩英语四种字幕及翻译到win或者mac系统上显示。这个小麦克风适合自用和临时用用,收音距离有限。
另一个是系统播放声音,例如视频和音频,然后自动识别声音,跟上边一样转换中日韩英语和翻译。再加上前边设置外接麦克风侦听的方法,让声音进系统,讯飞也就能翻译到了。
这两种方式都能让电脑给眼镜用讯飞的字幕,因为翻译软件背景是全黑透明的,所以在眼镜里看就是空中文字的效果,不影响画面。
或者电脑给手机投屏,用hdmi图传给手机,所有现场和网络手机都能同时看到一样的字幕。
虽然讯飞这个翻译机不支持usbc dp输出显示,但其本身就是个安卓系统,说明以后手机实现类似功能事可行的。
眼镜显示
最终,这些设备和软件在完成各自的任务后,在最后一个环节把字幕送进了眼镜里,就是这样的效果。
电脑内录收音和全向麦克风外放同时收音,这个是对视频观看聊天等场景模拟,聊天环境安静识别率更高。
其它设备外放,全向麦克风收音,这个是对电脑外部现实各种环境模拟。
翻译不准确是正常的,按照前面的说明,例如在完美的条件下,也是存在声音和转换损失的。
- 硬件,麦克风收音(内录无损)
- 硬件,接收音频信号(内录无损)
- 软件,声音识别抓取语音(内录无损,纯语音无任何背景音)
- 软件,语音转文字(转换有损)
- 软件,文字转其它语言(转换有损)
- 硬件,眼镜显示(最终显示有损)
这样再看看效果,纯语音环境内录效果
这可能就是现在实时翻译的天花板了。但TED准确率过高,估计是讯飞训练AI的素材就用的ted,游戏里非正常语境的就效果差些,也就是现阶段,可用于日常简单会话。
户外用广播进手机能解决大部分环境噪音问题。语音转文字转其它语言这些也是能够一直升级换代的。win和mac系统本身日常语音识别率就很高。
现在地球最强翻译chatgpt还没大规模应用,文字转其它语言也能接近无损,所以用眼镜看各种语言翻译,预计将是最快能够普及的元宇宙技术。
评论