谈论人工智能的梦幻之处,在于常常给人割裂时空、站在世界转折点的错觉。
一旦深入产业,错觉便开始瓦解。规划路线,开发产品,再想办法把它们卖出去。哪一家人工智能公司不是商业公司?哪一件华袍上没有蚤子?
「我们都活在过去长长的阴影中。」
比起天马行空的畅想,「过去」显示出它的谦卑与丰厚。一家技术公司的十八年创业史,也许会给今天的你我一些启示。
1
1
1
诞生于年的技术创业公司
年是中国互联网「元年」。这一年中华网赴美上市,成为第一家登陆纳斯达克的中国互联网公司。随即互联网创业热潮席卷全国,百度、腾讯诞生在这一年,阿里巴巴也诞生在这一年。
年也是语音产业「元年」。这一年IBM发明的语音系统被评为「科技领域十大事件之一」,人类第一次实现用语音在电脑上输入信息。这种革命性的体验使得整个科技界为之疯狂,英特尔、摩托罗拉、东芝等巨头纷纷建立语音研发中心,争夺语音市场先机。
时钟再向回拨一年。年,我国项目语音合成比赛中第一次出现了3分。当时评测采取5分制,播音员发音为5分,普通人发音为4分,3分即代表听者可以接受,对合成语音不反感。也就是说,语音合成技术可以应用了。
年的刘庆峰刚满26岁,正站在创业狂热与语音浪潮的交叉点。从不知语音系统为何的大二学生,到带头开发语音合成系统,再到参加国家项目比赛拿到第一,他已经在中科大的人机语音实验室埋头工作了8年。第一次出现的「3分」给了他勇气,也许掌握语音合成技术的他,也能成立一家公司。
年,语音及语言信息处理国家工程实验室挂牌成立,前身为中科大人机语音通信实验室
这年4月,刘庆峰拉上实验室里的师兄弟,每人出些钱,共同成立了科大讯飞的前身「安徽硅谷天音科技信息有限公司」。研发投入成本高、消耗快,到年底帐面已是捉襟见肘,万资金只剩个位数。还好融资及时到账,由美菱集团和安徽省信托投资公司共同出资0万,「硅谷天音」也正式更名为「科大讯飞」。
0万甫一到账,刘庆峰做的第一件事是「资源整合」。除了语音合成,语音处理技术还包含语音识别、声纹识别等等。同时作为典型的交叉学科,语音处理不仅涉及声学、语言学,还有计算机工程设计等不同领域。除了中科大,中科院声学所、社科院语言所、清华大学都在做语音相关研究,各个机构都有自己的擅长之处。
拿着这笔钱,刘庆峰开始逐一拜访这些研究机构,希望能由科大讯飞提供项目经费,共同成立联合实验室。各研究机构不需要改变原有研究领域,由科大讯飞负责产业整合,将语音技术实体落地,并以股权的形式共享利益。
就这样,科大讯飞早早扼住了语音处理核心技术的源头。
1
2
1
前世:-
愈挫愈勇的语音合成公司
天使轮试水,A轮出产品,B轮看市场。
年的科大讯飞已经到了拿出产品的「人生阶段」。
科大讯飞推出的第一款产品叫「畅言」。与IBM的语音系统类似,用户在PC上安装「畅言」软件后,就能通过语音进行文本输入、指令输入等操作。不仅如此,「畅言」还支持手写输入,将语音与手写两种输入方式进行了无缝融合。
这款兼顾便捷与效率的产品给了刘庆峰信心,「过不了两三年,科大讯飞的营收就能突破10亿,甚至亿」。
可惜的是,疯狂的盗版市场与强劲的竞争对手早已伺机埋伏。当时牢牢抓住手写市场的汉王嗅到先机,年时便将IBM语音识别技术植入产品中。虽然技术尚不成熟,但其推出的「汉王读写听」因「非键盘输入」的概念受到热捧。同时其早期入股建立的省会经销渠道发挥了重要作用,汉王促销员们一边高声朗读、一边奋笔疾书,市场反应异常火爆。
《教电脑识字》中对汉王读写听的记录
年,汉王年销售额破亿。没有商业渠道的「畅言」则被代理商频频退货,陷入失败境地。
从技术上看,当时的语音识别技术上使用的是GMM(高斯混合模型)与HMM(隐马尔科夫模型),虽然实验室指标看起来不错,但实际使用起来效果并不好,往往要在非常安静的环境下清晰朗读才行。后来的事实也证明,语音识别产品化的道路在当时很难走通。尽管各国在语音识别上投入的资金已超过阿波罗登月计划,但即使到年,语音识别也没有在任何领域广泛使用。
技术转化成ToC产品太早,也许应该面向B端。
当时的电话信息平台由人工接听,需要大量客服同时在线。如果使用语音合成技术与客服协作,50人便可完成人的工作量。初出茅庐的讯飞拿不下电信的单子,就拉上华为负责系统集成,由讯飞开发语音引擎。
从技术到应用,看似相连的两点,中间隔着看不见的鸿沟。除了技术本身的优异,应用还需要兼容系统、运行稳定,即一定的工程化能力。实验室测试完好的语音引擎,放到华为的系统里只能运行几分钟。讯飞的18名初始员工只得不眠不休,优化引擎、修改问题。「蜕皮」的一个月后项目通过,讯飞也获得了华为的长期订单。
在华为这位「老师」的指引下,讯飞有了第一次的工程化经验。加上电信案例的加持,讯飞摸索出第一条商业道路——将语音技术嵌入合作方平台中。
年末,讯飞的合作伙伴名单中已经包含中兴、联想、神州等50多家大型企业,智能网、呼叫中心、业务系统等需要语音引擎的大公司纷纷找上门来,终于有了收入。不过账面上万元的收入额提醒着刘庆峰,也许短期内,讯飞无法达到最初设想的上亿规模。
年,讯飞开始将电信呼叫中心业务向外延伸,开发出智能语音旅游信息服务、工商税务查询服务等业务。年,讯飞开始承接系统集成业务,带来了一定的现金流和本地影响力。终于,年的讯飞扭亏为盈。
SP业务(移动增值业务)的爆发,则为讯飞开辟了另一条生存之路。
年,彩铃自韩国引入中国后,受到消费者的热烈追捧。但令运营商困扰的是,电话只能通过按键选择1-9之间的9首彩铃,也许语音是一个不错的选择。
接到需求的讯飞开发了「声动炫铃」——一套可以让消费者使用语音选择彩铃的系统。这套系统被迅速从安徽运营商推广到联通总部,中国电信、中国移动开通彩铃业务后也选择了这套系统。基于此,讯飞进一步探索了个性化彩铃、爱吼网等产品,当时的音乐、彩铃相关语音业务平台几乎都由讯飞负责。
「声动炫铃」业务收入,来自科大讯飞招股说明书
凭借这些业务和收入,讯飞开始了连续3年净利润%的复合增长。年营收突破2亿元,年,科大讯飞正式上市。
1
3
1
今生:-
向下渗透的人工智能公司
中国第一家在校大学生创业的上市公司、中国语音产业唯一一家上市公司,接下来的路要怎么走?
当时不少中小企业主和开发者找到讯飞,希望使用其语音技术开发产品,但前期的服务器等硬件成本让他们无法承受。受此启发,讯飞开始搭建语音云平台,希望开发者们能通过调用接口,更便捷的使用语音识别、语音合成等技术。
年10月,「讯飞语音云」正式发布。这是一步只赚不赔的妙棋,只要有足够的使用者,讯飞就能获得大量语音数据,为技术模型的调整和迭代提供「燃料」。针对大公司收费、针对创业者免费的方针不仅保证了讯飞的收入,还为其挖掘语音相关创业团队提供了最佳来源。同时作为一块未被开辟的市场,越多的用户使用语音相关技术,语音市场就越大。
发布会结束后,云平台的确获得不少