手机游戏巴士

王源也推荐!“读诗成曲”游戏火了,思必驰揭秘背后技术

发表于:2024-11-16 作者:游戏编辑
编辑最后更新 2024年11月16日,安妮发自凹非寺量子位出品|公众号QbitAI学唱一首歌要多久?1小时,5小时还是一天?如果你关注了昨晚(1月28日)央视八点档的《经典咏流传》就会发现,...

安妮 发自 凹非寺

量子位 出品 | 公众号 QbitAI

学唱一首歌要多久?1小时,5小时还是一天?

如果你关注了昨晚(1月28日)央视八点档的《经典咏流传》就会发现,学会一首歌的时间,30秒足够了。

输入诗词朗读,输出自己嗓音的歌曲,这个“读诗成曲”的H5游戏火了。

据统计,节目播出后的90分钟内,超过14万人次参与合成自己的歌,H5转发量超过10万。连王源小哥哥也在线推荐:

王源在节目现场演唱《长歌行》并邀请你一起来读诗成曲

甚至还登上了实时热搜榜:

用你的声音合成歌曲,这次又是AI立功了。

决战30秒

扫码进入H5界面,量子位开启了“读诗成曲”游戏玩法探索模式。

在你开口读诗前,首先需要戳选你的音色,选择你的声音为男声、女声还是童声。随后,页面跳转到一个经典诗词曲库,请开始pick你喜欢的歌曲。

“决定性30秒”来了,此时,对着话筒大声朗读所选曲目的歌词(也是诗词),上传后稍等片刻,你朗读的诗词就被自动转换成了由宫商角征羽组成的旋律。

确定过眼神,是自己的嗓音。

而且用这个小工具合成的歌声不仅听起来像自己的声音,而且高音部分还不、会、破、音,完美避开了“一破毁所有”的尴尬境地。

韵律合拍,又在传统春节的气氛中,可以无压力分享到票圈了。

技术揭秘

一段平平无奇的语音经AI之手,是怎样变成了婉转流利的歌曲的?

“读诗成曲”应用背后技术提供方其实是语音技术起家的思必驰。

思必驰副总裁兼北京研发院院长初敏解释,“读诗成曲”背后,主要应用了思必驰语音技术,尤其是个性化歌声合成技术

从一段文字到个性化,从技术角度来讲分为2大处理阶段,即语音识别与语音合成,后者又分为两步。

具体来看:

第一步,语音识别。用户按照屏幕提示朗读诗词,系统会先判定读音是否正确,通过后进行如语音合成阶段成曲。

第二步,声学模型加持,调整频谱参数。也就是说,通过第一步收集的你的声音数据训练模型,个性化学习后,让生成歌曲的音色像你本人。

第三步,韵律模型调节韵律参数,控制每个音的声音长短及高低,旋律就此确定。

随后,将韵律参数和频谱参数结合,生成歌声。一段音色属你,旋律似原唱且歌词为经典诗词的片段已合成。

整个流程下来,在网速保证的情况下1~2秒就能合成成功。初敏表示,至少支持10万人同时点击使用时秒出结果。

AI可以很好玩

把理解中国古诗词这种教育行为与合成歌声这种娱乐行为结合,也算的上是AI与泛娱乐领域结合的一次尝试。

初敏表示,读诗成曲项目虽然最初的动力来自央视,想要传承经典古诗词。但将AI与泛科技结合却是自己一直想做的。意义不仅在于好玩,也在于学习与教育。

思必驰副总裁、北京研发院院长初敏

比如,在读诗成曲中录音时,读错一个字语音识别系统就会提示录入错误建议重读,重新朗读至全部字词正确才可以进行合成。

这不是思必驰第一次在歌声和成领域的尝试,此前在《机智过人》节目中,思必驰打造的“小驰机器人”用撒贝南的声音生成了一曲《好久不见》,还获得了撒贝南的官方认可。

小撒表示,该歌声的“声音的相似度基本在90%以上”。

和《机智过人》中的离线技术不同,读诗成曲的难度大大提升,由一个非线上、不能互动的离线功能转变成一个近实时的互动游戏,时间要求高了,且未知性变大了。

挑战也随之而来。

变成互动性游戏后,录音效果无法预测,使用时不同的方言口音、手机机型、录音环境的嘈杂度是未可知的。初敏表示,针对极端场景已经进行了不少测试,但技术永远不能保证百分百。

初敏认为,科技公司有两个出口,一是严肃向、实用风的老路,第二就是走好玩的娱乐向,读诗成曲的项目就是。

娱乐向看似实用性不如前者,但每个人有机会可以去感受体验,且可以具有教育意义,所谓“寓教于乐”是也。

作为一家To B的企业,思必驰认为AI可以不用那么严肃,也不用那么高高在上,因为无论To B还是To C,最终面向的都是用户。

思必驰CMO龙梦竹表示,“读诗成曲”的这种大众参与方式还谈不上科普教育,但如果能让大众觉得“AI挺有趣”,也是一件很酷的事情。




0