36氪最近接触到的广州深声科技有限公司(简称:深声科技)是一家专注于智能语音技术研发和业务落地的人工智能公司。公司曾在2018年7月获小米数千万元天使轮投资,具有语音合成、声音定制、声音克隆、声音降噪和声音分离等七大核心技术。
语音合成技术又称文语转换(Text to Speech)技术,是指利用电子计算机或其他机械将文字实时转化为可懂且流利的语音,相当于“给机器装上人工嘴巴”。
深声科技创始人兼CEO周俊明介绍,目前语音合成技术落地场景主要有内容输出、智能客服与智能营销以及语音交互三大类。
希望实现广播剧级别的小说音频转化。
音频转化技术输出已经商业化落地内容输出落地方面,深声科技通过与内容平台合作,对网络小说、新闻资讯、K12儿童读物等内容进行音频转化。智能客服和智能营销方面,主要面向各大运营商和金融客户。语音交互方面,主要落地场景为智能音箱、手机语音助手和车载后装市场等。
在内容输出的合作上,深声科技与畅读书城基于书城内小说版权资源,运用语音合成技术共同开发有声读物。周俊明认为,由于技术限制原因,以往传统小说音频转化整体合成效果不佳,存在机械感强、可懂性差、不生动等问题。
在提升音频转化效果上,深声科技的逻辑是先将小说根据悬疑、玄幻、爱情等题材分类,选择合适的旁白风格,并为小说中不同性格的人物选择契合的音源,进行语音合成,最终希望实现广播剧级别的小说音频转化。音源库的丰富程度是决定效果的基础,深声科技共有1200余名不同音色的录音员,例如萝莉女音、主播女音、稳重男音、温暖男音、二次元音等,可为不同类型性格的角色提供音源支持。
深声科技与畅读书城共同开发的付费音频读物现已上线。以有声读物为例,深声科技采取的盈利模式为基础技术费用加订阅分成。
广播剧《我必封天》片段(深声科技与畅读书城合作开发)
语音合成技术能力总体来说,周俊明认为深声科技的语音合成质量可以做到音质明亮、还原度高、无机械感。
音质上,最大程度保留语音的各频段信息,避免高频信息丢失造成的沙哑或者沉闷。数据上,深声科技自主研发的数据标注平台,采用自动标注+人工校正的模式,数据标注团队背景多为语言学、汉语言文学专业,可提高输入数据的质与量。在语音合成后端方面,采用可控的端到端技术,整体预测准确率达万分之五。情感韵律方面,利用高性能声码器结合韵律算法和网络模型,解决噪声、机械感强等问题。
2019年7月,深声科技在Blizzard Challenge 2019国际语音合成大赛中获得亚军。Blizzard Challenge国际语音合成大赛由美国卡耐基-梅隆大学(Carnegie Mellon University)、日本名古屋工业大学等联合发起,是当今国际上规模最大、影响力最大的语音合成大赛。
基于语音合成技术,深声科技还有声音定制和声音克隆这两大产品。声音定制主要面向大型企业,为企业制作代表其品牌形象的声音。声音克隆则主要面向广大C端用户,以儿童教育场景为例,通过录制父母或老师的声音生成儿童读物。
与股东方小米的合作深声科技曾获小米数千万元天使轮投资。一年多以来,深声科技依托小爱同学,为小米提供语音合成、数据制作和人机交互等方面的服务。据了解,预计在12月下旬,深声科技与小米在数字阅读以及智能音箱方面合作的具体功能将上线。
展开全文至今,深声科技已与20多家企业达成合作,客户包括小米、金山、中科院等。深声与金山的合作主要体现在WPS文字转语音、优化金山词霸翻译语音体验等。未来,深声科技或将围绕小米生态链的企业开展