XR.FAN/FY

本篇是AR,VR等XR眼镜用翻译机识别中日韩英语声音并且翻译的方法,永久短网址是xr.fan/fy

左侧字幕+生成文本+chatgpt总结


概述

AR眼镜不仅能无限增强视力(见ar眼镜同时多开摄像头无限增强视觉篇),还可以无限增强听力,不过这些在古人看来都是神力的技术,即便现代人想用,也是不是免费的,要加钱。

还好听力需要的科技看起来比视力简单便宜,应该会先一步在眼镜里应用和普及。


实现原理

按照声音进眼镜的顺序,大概有这几个步骤。

  1. 硬件,麦克风收音
  2. 硬件,接收音频信号
  3. 软件,声音识别抓取语音
  4. 软件,语音转文字
  5. 软件,文字转其它语言
  6. 硬件,眼镜显示

那就一个一个开始分析吧。


麦克风收音

这是所有声音的来源,如果把摄像头比作赛博眼睛,那麦克风就是赛博耳朵,分为有损收音和无损收音。


无损收音

无损收音就是声音采集没有任何音质损失,这在现实是不可能的,现实只能无限接近于无损。

无损收音只能在虚拟空间实现,常见的电脑播放声音,播出来之前都是无损的,声音识别在这之前是100%完整的音频信号。

这种无损收音技术已经非常成熟而且免费,也不需要用户做什么操作都是一键自动内录采集收音。

所以一般需要配置的地方,就是不同设备之间如何无损实时传输音频。

常用的方法是通过蓝牙接收,没蓝牙的电脑也建议弄个蓝牙适配器,不然走wifi和usb更麻烦。

绿联蓝牙接收器

然后在微软的软件商店,搜索Bluetooth Audio Receiver。或者直接打开下边连接,选择右边栏在 Microsoft Store 获取。问微软账号的话直接关闭就能下载了,无需登录。

https://apps.microsoft.com/store/detail/bluetooth-audio-receiver/9N9WCLWDQS5J

下载好后,手机蓝牙里找电脑名字连接电脑蓝牙,配对以后,打开这个Receiver软件就能看到手机名字,然后点一下手机名字,再选open connection,这样手机放音乐就可以在电脑里听到了。

也可以让手机麦克风也能进电脑。

安卓

这要用到手机麦克风app,例如麦克风扩音器,然后用上边方法在app里蓝牙连电脑,这样用手机讲话,声音就在电脑里了,但这是有损失的。

苹果

用手机麦克风给笔记本macbook声音,苹果自己家刚出个连续互通。https://support.apple.com/zh-cn/HT209037

这个对手机型号和版本有要求,手机更新后,mac重启再进设置,选声音,输入,然后就能看到手机的名字,选上以后,按照后边的方法用quick time点开录制,选好麦克风,拉大下边音量条就可以通过手机收声音,但也是有损失的。


有损收音

现实皆有损,专业的录音棚效果不是日常能做到的,而且用眼镜需要室内户外识别声音,那能选的麦克风,只有便携的全向和指向两种,一个所有方向收音,一个指定方向收音。

有线的便宜,而且有的不需要电源,室内用用还好。

直插型的,对设备要求很高不能有声,如果接笔记本,风扇就是最大噪音干扰源,还需要接延长线远离。

所以考虑到最广泛的使用场景,无线便携全向带电池的,那只有视频会议类别的麦克风是现阶段最适合的了,这里用的宜丽客LBT-SP02

会议用无线全向麦克风本身就是为多方向多人语音设计,支持减噪和消回声,相当于把电脑的麦克风喇叭分离出来,更容易找地方摆放。因为自带音箱,不仅可以用于自己收音,还可以让对方放音。


接收音频信号

这个取决于想要用来做什么,手机和电脑都是常见的接收设备,像本篇的翻译机,就需要win或者mac系统,那就只能在这两个选。

根据场景,室内无所谓,室外就要小和便携,macos最小的就是macbook airmac mini

WIN的话选择很多,从小到电脑棒,再到掌机平板和笔记本都属于便携范围,这里当然是支持dp的可以直接显示的设备优先(见AR眼镜用USB-C的DP视频输出设备),然后是有hdmi输出接口的,通过hdmi到usbc转接器给眼镜也能用,hdmi无线给手机也行。基本上不支持dp的,也都有hdmi,所以这块不是什么问题。

要是只弄个主机,其实电脑棒就够。只是电脑棒近年发展几乎停滞,这个本该是现在眼镜最佳接收万能设备,翻遍网络只找到一款支持usbc dp的,meegopad t08,nreal尚未兼容,还好也有hdmi。

这里用的gpd win max2macbook air做为便携本来收录音频。

winmax2大小只有macbook air的一半,两个lite那么大,可能是现在集成键盘鼠标触摸板电池屏幕一堆接口兼具cpu显卡性能的win系统适合打包在一起出门的机型,跟另一家最新6800U的平板onexplayer2比,onexplayer2无键鼠不能手持接口也少然后只是小点但是厚度一样代价是没有5g和双nvme。

虽然理论上winmax2这货有usbc3.2+usbc4.0+hdmi转接能同时支持3个以上眼镜,但由于usb4太新协议各家不太一样,现在nreal只有3.2的可用,如果3.2的不亮,需要找根usb4线连眼镜试试亮后,眼镜线再连就亮了。


声音识别抓取语音

一般声音收集软件,在系统播放声音时就能同步收音,只有在用麦克风收音的情况下需要讲一下。

正常用电脑的麦克风,是默认不传给喇叭的,因为开启可能会有回声,以及环境声音会同时在喇叭里播放基本就不用听东西了。但如果不让麦克风走播放通道,这时声音收集软件是获取不到麦克风声音的。

这在本篇需要用翻译机软件的情况下,等于外面的声音就无法获取了,尽管这个声音是有损失的,那也必须要开启。具体方法是

WIN系统

  • 右键点右下角喇叭选声音,
  • 点录制栏
  • 双击默认设备,或者选择需要用到的麦克风,设置默认再点开
  • 选侦听
  • 然后点应用试试声,
  • 如果有回声或者啸叫马上取消侦听,再点应用
  • 有的电脑麦克风和喇叭设计的位置不对就无法用侦听
  • 如果没问题,这时外部声音说话之类的,电脑喇叭就有声了。

调小音量也有助于减少回声啸叫

MAC系统

系统内收音没什么好方法,只能开启quick time play,新建音频录制,然后不用录,把下边喇叭拉起来,声音就进系统里了。


语音转文字

这个是输入法和各种应用的标配功能。

win系统按win键+H启用。

macos进设置,键盘,右侧下拉找到听写,设置好快捷键就能用声音打字了。


文字转其它语言

有文字,翻译这些文字就有各种服务和应用了。

例如腾讯翻译君有道翻译都支持各种语言实时互译

本篇用的是讯飞双屏翻译机,支持中日韩英语四种语言实时识别和互翻。

讯飞有两种识别翻译方式,一个是自带一个领夹蓝牙麦克风,用于演讲时识别声音,再转换中日韩英语四种字幕及翻译到win或者mac系统上显示。这个小麦克风适合自用和临时用用,收音距离有限。

另一个是系统播放声音,例如视频和音频,然后自动识别声音,跟上边一样转换中日韩英语和翻译。再加上前边设置外接麦克风侦听的方法,让声音进系统,讯飞也就能翻译到了。

这两种方式都能让电脑给眼镜用讯飞的字幕,因为翻译软件背景是全黑透明的,所以在眼镜里看就是空中文字的效果,不影响画面。

或者电脑给手机投屏用hdmi图传给手机,所有现场和网络手机都能同时看到一样的字幕。

虽然讯飞这个翻译机不支持usbc dp输出显示,但其本身就是个安卓系统,说明以后手机实现类似功能事可行的。


眼镜显示

最终,这些设备和软件在完成各自的任务后,在最后一个环节把字幕送进了眼镜里,就是这样的效果。

电脑内录收音和全向麦克风外放同时收音,这个是对视频观看聊天等场景模拟,聊天环境安静识别率更高。

其它设备外放,全向麦克风收音,这个是对电脑外部现实各种环境模拟。

翻译不准确是正常的,按照前面的说明,例如在完美的条件下,也是存在声音和转换损失的。

  • 硬件,麦克风收音(内录无损)
  • 硬件,接收音频信号(内录无损)
  • 软件,声音识别抓取语音(内录无损,纯语音无任何背景音)
  • 软件,语音转文字(转换有损)
  • 软件,文字转其它语言(转换有损)
  • 硬件,眼镜显示(最终显示有损)

这样再看看效果,纯语音环境内录效果

这可能就是现在实时翻译的天花板了。但TED准确率过高,估计是讯飞训练AI的素材就用的ted,游戏里非正常语境的就效果差些,也就是现阶段,可用于日常简单会话。

户外用广播进手机能解决大部分环境噪音问题。语音转文字转其它语言这些也是能够一直升级换代的。win和mac系统本身日常语音识别率就很高。

现在地球最强翻译chatgpt还没大规模应用,文字转其它语言也能接近无损,所以用眼镜看各种语言翻译,预计将是最快能够普及的元宇宙技术。


一步字幕

一个用途创新,通过讯飞双屏翻译机必捷投屏器实现便携一步字幕。

翻译机支持给设备投屏实时识别语音显示和翻译字幕。通过投屏器,这些字幕可以直接进眼镜,这样不用进win或者mac系统操作,几乎就是打开翻译机,打开投屏器,就能实现。

这样自己看字幕和翻译,像图里把自带的小mic放到声音源或者给别人讲。

让别人看字幕,只要把眼镜和投屏器给对方拿走,自己拿mic讲。而且所有显示的字幕都会有文本归档。

这样真正实现了便携翻译,省区一堆线和设备,不然还要用本或平板加翻译机

以及电脑棒+充电宝+翻译机。

翻译机都不用拿出来,不说都不知道翻译机存在,还以为是眼镜或者投屏器实现的,简直太棒了。

这样一对多翻译可用图传,多对一翻译用投屏器

左右分屏效果

评论

请输入您的评论:
F F B L J