首页科技快讯融资合伙人入围项目 | 研发新型合成技术,「随身听」瞄准有声读物的语音合成

融资合伙人入围项目 | 研发新型合成技术,「随身听」瞄准有声读物的语音合成

来源：晰数塔互联网快讯时间：2019年05月28日 20:05

近年来，语音合成技术正越来越多地应用在地图导航、新闻资讯、音频读物等领域。

36氪曾报道过的“随身听”就是其中一家以语音合成技术为核心的创业公司。该公司曾于2018年6月宣布获得远望资本的数百万元人民币天使轮融资，最初对自己的定位是“语音新闻聚合推荐平台”。但该公司创始人兼CEO汤巍敏告诉36氪，为了规避新闻资讯审核的政策风险、快速积累内容，随身听目前的主要业务为：短期内，给第三方做有声书的合成，长期来看，要运营合成有声书的版权。

谈及为何入局有声书语音合成领域，汤巍敏表示，目前，喜马拉雅FM、蜻蜓FM等有声读物平台的头部内容录制质量较高，但长尾内容的录制质量远不如语音合成的效果，其音色也不如语音合成多元。而他们做的语音合成产品分为两种，第一是摘要合成，第二是全文合成，用户可以先听摘要，如果感兴趣，再听全文。

汤巍敏称，在语音合成领域，有多种技术路线，包括传统的拼接技术、参数合成技术，但此二者都遇到了瓶颈。而随身听采用的波形合成技术可以提升时间效率、减除对GPU的依赖、减少60%以上的经济成本。

目前，随身听以B端服务为主，后期会面向C端客户提供合成有声读物。其B端客户包括中国图书进出口集团（有声读物）、人民日报社（新闻技术服务）。

该公司创始团队曾获得百度hackathon大赛黑马奖，其核心技术骨干来自硅谷音视频技术公司OpenTv。

以下是36氪在2018年6月对随身听的报道原文：

36氪获悉，语音新闻聚合推荐平台“随身听”已完成数百万元人民币天使轮融资，由远望资本投资。本轮融资将主要用于团队扩充和内容丰富。团队希望在短期内优化机器生产的内容质量，丰富内容品类。长期目标是做内容分发平台，接入更多第三方内容。

“随身听”是一个语音新闻聚合推荐平台，团队以自研的舆论预测算法和文章摘要抽取算法，为人工智能语音交互平台客户及个人用户提供语音资讯服务。

“随身听”更像是一个利用机器提升内容生产效率的内容生产者。“随身听”的内容并非来自于网络抓取，而是通过算法自动生成。这使得公司在未来不会面临版权问题。

要做到这一点，主要利用了网络爬虫技术、数据清洗、知识图谱、自然语言处理等相关技术。具体来说，通过网络爬虫模块，每天大概爬取到2-3万条全国各地的新闻资讯及相关平台、作者、评论信息，并对这些内容进行关键信息提取构建信息图谱，去重，过滤敏感信息和谣言，并进行排序；分析文本中的句子的重要性，进行抽取，确定时间、地点、人物、事件等基本信息，生成摘要；并通过语音合成生成语音内容。

一般来说，只有头部内容才能获得更多的关注。这方面，团队通过技术实现新闻热度预测。团队通过抓取阅读、评论、转发等用户行为数据及其变化趋势，和平台本身发布、置顶、推送、下线等行为动作，通过机器学习建模，实现对新闻热度的预测。目前，针对头部内容团队会进行人工录制。

在国内，内容的审核必不可少。目前团队主要通过人工来完成。一方面，新闻编辑员对自动抽取内容的评估和修改，同时修改内容反馈抽取模型和热度预测模型，训练模型参数。另一方面，新闻审核员会负责审核新闻的内容质量和政治脱敏，屏蔽风险。

目前，“随身听”的产品主要以语音内容的形式对外提供。这意味着团队在技术上还需要解决语音合成技术，从而降低内容生产成本。团队表示，目前团队已经积累了很多新闻主播的新闻播音数据，并标注后做新闻播报领域的专业TTS库，比现在开放的通用TTS效果好。现阶段，“随身听”的头部新闻也采用人工录制，长尾新闻采用TTS合成。

融资合伙人入围项目 | 研发新型合成技术,「随身听」瞄准有声读物的语音合成

现阶段，“随身听”同时像C端、 B端提供内容资讯服务。C端方面，目前主要通过小程序、App呈现，团队表示上线一个月自然用户在5千左右。B端方面，以接口的形式向合作伙伴输出内容，目前已经与腾讯、小米、京东、地平线等建立合作关系，按照年费或者接口请求收费，目前公司已经实现了盈利。

此外，为了提高用户粘性，团队还通过机器学习等技术，为用户建立用户画像，首次登录给用户选择感兴趣的内容标签，系统会记录用户的对新闻类型的收听行为，详情TTS的收听情况，以及跳过或重听的行为，建立用户画像，从而筛选用户喜好的标签，筛选出用户最有可能喜爱的新闻内容。

当前，音频内容的接受程度越来越高。一方面，生活中确实存在诸如驾车、骑车、步行、家务、用餐、洗簌等不方便观看的场景；另一方面，也存在下班疲惫、年老眼衰等不愿意看或者不能看的场景，给音频内容提供了机会。而随着智能音响、无线耳机等音频终端普及，智能语音相关的巨头及初创公司之间形成竞争，音频内容的重要性也在提升。

新闻资讯类应用及服务往往门槛相对较低，且前期需要借助渠道推广，很可能面临后来者竞争。团队认为，新闻是数据驱动型项目，目前即使是渠道型的大公司，在新闻的数据化和实效性方面积累并不够强。

“随身听”的团队有10人左右的全职团队，创始团队是百度大数据的技术和腾讯产品经理的组合。创始人汤巍敏，2014年初加入百度，在百度云设备部和百度大数据部任职，有近30个中国和美国专利，在百度期间，参加百度hackathon比赛，并获得了第一名。联合创始人宋治云是前百度智能语音产品经理、腾讯AI高级产品经理。核心成员在新闻预测、个性化推荐、语音交互等方面经验丰富。

远望资本创始合伙人程浩告诉36氪，“语音交互是一个趋势，而个性化的音频新闻是建立在语音交互基础上的杀手应用，既刚需又高频，可以应用在音箱、车载以及手机上；特别是手机端还有微信小程序的红利。其次，从团队配置上看，这是一个百度大数据的技术派和腾讯AI产品经理的优秀组合。”