【国金研究】AI视觉与语音专题：人工智能‘视’‘听’盛宴来临_新浪财经

牛市来了？安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址】

来源：国金证券研究所

国金证券研究所

创新技术与企业服务研究中心

通信团队

基本结论

作为AI时代的两个主要的入口，计算机视觉是AI行业最具商业化价值的赛道，智能语音产业即将进入爆发期。首先，计算机视觉在AI领域中应用场景最丰富，极具商业化价值。计算机视觉主要以图像和视频等高维、密集数据为主要处理对象，信息提取程度更深，应用场景更加丰富。目前，国内外均有40%以上的AI企业聚集计算机视觉领域，市场规模在所有领域中全球第二、中国第一，商业成熟度较高，2017年中国计算机视觉应用规模约为15.5亿元，预计17-22 CAGR超56%。其次，智能语音领域，根据Gartner 2018 AI技术成熟度曲线，语音识别、虚拟助理等相关智能语音技术历经淘洗已相对成熟，未来将推动产业走向爆发期，预计整个市场规模将从18年的75亿美元增长至24年的215亿美元，CAGR达19%。

整体而言，传统科技巨头布局平台和生态，初创算法企业抢占垂直赛道。具体来讲，计算机视觉领域，市场呈现出科技巨头把控基础层、初创算法企业领跑技术和应用、垂直领域龙头占据场景的格局。现阶段，计算机视觉行业已进入群雄逐鹿阶段，头部算法企业如商汤、依图横向建立平台，垂直领域龙头如海康、大华纵向深耕行业，科技巨头如阿里、华为立体式打造全产业生态。智能语音领域，当前国内外市场已相对集中，头部企业如Nuance、Google、科大讯飞等占据了大部分市场份额，CR5均超80%。两大类市场玩家——通用平台商如谷歌、百度致力于打造开放语音生态，专业应用商如云从、思必驰致力于抢占家居、车载等细分赛道。

‘视’‘听’盛宴来临，看好头部初创企业的发展。计算机视觉领域，我们看好算法储备丰富、算力供应充沛、长期发展具有深厚底蕴的商汤，具备强大软硬件结合能力及“阿里系”背景的旷视，先发优势明显、实战指标领先的依图以及唯一的“国家队”云从；智能语音领域，我们看好 “云端芯”一体化发展、具备人才优势与先发优势的云知声。

投资建议

计算机视觉领域，建议关注CV“四小龙”：商汤、旷视、依图、云从；智能语音领域，建议关注云知声。

风险提示

计算机视觉及智能语音初创企业商业模式不清晰、技术发展及应用落地速度不及预期、新竞争者的涌入导致行业竞争加剧等。

1.计算机视觉：AI行业最具商业化价值的赛道

计算机视觉是国内外AI企业最集中的领域，商业成熟度较高。从AI企业的应用技术方向分布来看，计算机视觉技术企业在全球AI企业中占比约40%，在国内占比约46%；无论国外还是国内，计算机视觉都是AI企业最集中的领域。从市场规模来看，2017年计算机视觉市场占全球AI市场总规模的16.9%，排在语音识别之后；而国内计算机视觉市场占AI市场的34.9%，排名第一。国内外计算机视觉的市场规模差异要远大于企业分布差异，说明国内计算机视觉公司的总体盈利能力较其他AI领域的公司较强，商业成熟度较高。

计算机视觉是AI领域应用场景最丰富、商业化价值最大的赛道。目前，AI技术处理的数据类型不外乎四类：文字、语音、图像和视频。从信息维度来看，从文字到视频维度是递增的，文字的信息维度最少、包含的信息量也最少，视频的信息维度最多、包含的信息量最大。反映在数据量占比上，以线上数据为例，根据Cisco的研究，到2022年全球线上视频流量占总流量的比例将从2017年的75%上升到82%，说明线上数据将越来越被视频数据所主导。

信息维度更高加之数据量更大，因此以图像和视频为主要处理对象的计算机视觉要比以文字或语音为主要处理对象的其它AI技术具有更加丰富的应用场景和商业化价值。我们认为，当前资本市场也正以其资源配置、资产定价功能充分反映计算机视觉相对其它AI领域的优势。例如，根据公开资料，当前计算机视觉行业四家头部初创企业（商汤、旷视、依图、云从）的总估值已经超过1000亿人民币，也超过了语音识别行业几家头部初创企业（思必驰、云知声、出门问问、图灵机器人、捷通华声）总估值加上AI语音龙头科大讯飞的市值总和。

市场格局上，科技巨头把控基础层，初创企业领跑应用层。计算机视觉架构从下至上：1）基础层——核心芯片被Intel、Nvidia等传统芯片厂商把控，新型芯片厂商尚未崛起，规模应用有待时日；开源平台以谷歌的Tensorflow、Facebook的Caffe等为主，其它企业的深度学习框架多为二次开发；2）技术层——算法，初创企业占优；云计算，几乎被AWS、Google Cloud、Azure、阿里云等垄断；3）应用层——垂直行业龙头占据场景，技术层初创企业向上渗透。根据IDC，2017年中国计算机应用市场总规模约为15.5亿元，商汤、旷视、依图、云从“四小龙”市场份额共计达69.4%，至2022年中国计算机视觉应用市场规模将达到146. 1亿元人民币。

目前中国计算机视觉算法企业在技术水平、商业化程度以及融资能力（估值）上均领先于国际同行。技术上，近年来中国计算机视觉头部算法企业在国际性图像识别竞赛如ImageNet、FRVT、MSR IRC等中频繁摘得桂冠；商业化上，根据公开报道，商汤、旷视、云从等在2017年均已实现盈利，而国际初创企业同行如EverAI等尚处于净投入阶段；另外，从估值上看，CV四小龙均已达到数十亿美元估值，而国外尚没有仅靠人脸识别、图像识别就估值破十亿美元的初创企业。

分析上述领先优势产生的原因，我们认为，主要是由于国内头部计算机视觉算法企业充分享受了安防行业（尤其是视频监控）发展的红利：一是安防市场快速成长的红利，2007年至2017年我国安防行业十年CAGR达16%，2016年以后安防智能化趋势确定，计算机视觉技术率先得到应用；二是政策真空红利，与欧美国家相比，当前我国对公民生物特征的保护政策并不完善（见下文），因此国内计算机视觉算法企业可以从包括地方政府在内的各种机构中获得大量的人脸、人像数据用于模型训练和算法改进。根据Quartz的报道，中国某头部计算机视觉算法企业声称拥有20亿张训练图，而国际最大的公开图库之一的ImageNet仅拥有1300万丈左右的训练图，相差150倍以上。

从市场结构上看，国内外市场结构略有不同：国内安防、金融、互联网为主，国外消费、机器人（及机器视觉）、智能驾驶领先。根据IDC的市场跟踪，2018年中国计算机视觉技术输出规模最大的3个行业是政府、金融和互联网，最大的两个场景为政府行业中的平安城市以及金融行业中基于人脸识别的身份认证。而根据Tractica的预测，2018年全球计算机视觉技术输出规模最大的3个行业分别为消费、机器人（及机器视觉）以及智能驾驶。

我们认为影响计算机视觉落地的三个主要因素为监管政策、行业接受度及用户接受度，三者并不割裂：监管政策表明了监管机构的态度，行业接受度体现了行业玩家的购买意愿，而用户接受度一定程度上会影响监管政策和行业接受度。造成国内外计算机视觉市场结构巨大差异的主要原因，我们认为是监管政策和行业接受度的不同。

在欧美国家，生物特征作为关键的个人信息在被科技公司收集和使用时受到法律法规的严格保护。去年5月25日，欧盟史上适用范围最广、定则条例最严、处罚金额最昂贵的数据保护法案GDPR生效，该法案将指纹、人脸、视网膜等信息全部纳入个人资产范畴，对科技公司利用上述信息盈利进行了严格规定和限制。因此，在欧美计算机视觉率先在政策较为宽松、用户接受度较高的领域落地，例如消费和智能驾驶等。

在中国，首先，公民生物特征的保护政策并不完善；其次，基于安防效率和成本方面的考虑，政府是计算机视觉产品最早、最积极的买家之一。由于政府信用和购买力良好，加之安防行业成熟度高（利于计算机视觉技术集成）、图像及视频数据丰富（利于计算机视觉算法、模型训练），因此计算机视觉最先在安防领域落地。此外政策因素（如实名制、反洗钱等）也是导致国内金融业主动拥抱计算机视觉技术的主要原因。

企业核心竞争壁垒，中短期看是技术能力和产品化能力，长期看是生态构建能力。

中短期来看，包括人脸识别、人体识别、图像识别等在内的主要计算机视觉技术均基于使用神经网络的深度学习算法，而神经网络的种类选择、结构设计以及参数调整等是一连串极其复杂的工作，因此算法的优劣和迭代速度将直接取决于算法设计人员的知识和经验储备，也会进一步决定计算机视觉技术的准确率、可靠性等关键性能。ImageNet竞赛中神经网络隐含层数对图像识别准确率的影响最能说明问题。从10年至15年，随着神经网络隐含层数的增多，图像分类Top-5错误率随之显著降低（见下图），但与此同时算法设计的复杂度越来越高，对技术人员的要求也越来越高。

此外，计算机视觉技术在场景中落地时需要企业具备大量的除算法以外的know how，例如在软硬件结合以及保护终端用户隐私上的知识和经验等。现阶段，掌握技术的AI人才（尤其是顶级人才）主要分布在高校及科研院所，产业内的人才供应不足，加之多数场景下计算机视觉的落地能力不足，人才的争夺与落地能力的竞争将决定企业的发展速度。

但是，技术层面，随着自动机器学习技术AutoML的出现，机器学习模型的设计门槛随之降低。AutoML的出发点是用强大的算力通过更多次的训练提高模型的准确度，其最大特点是将机器学习模型的设计过程自动化。算法设计人员只需了解模型的基本概念并提供标签数据即可，神经网络的参数及结构调整是自动完成的，无需人工干预。目前AutoML已经进入落地阶段。

例如，去年1 月谷歌发布了提供自定义图像识别系统自动开发服务的 Cloud AutoML Vision，用户从导入数据到训练模型都可以通过拖放式界面完成。AutoML已经被谷歌应用于CIFAR-10高度基准测试数据集，并且训练出了与手工设计不相上下的模型。我们认为，随着AutoML技术的成熟，算法设计的门槛将越来越低，但相应的，算力的重要性会越来越明显，长期来看有可能成为计算机视觉企业的核心竞争力之一。

产品层面，我们认为，随着竞争的加剧，成功的企业不仅要具备大量的跟技术落地相关的know how，还必须能够主动地挖掘甚至创造需求，具备类似苹果在智能手机上的理解力。这就要求企业在纵向上能够主导整个产业链，横向上能够接入更多开发者和场景，因此长期看生态构建能力将成为主要竞争壁垒。

现阶段，头部算法企业横向建立平台，垂直领域龙头纵向深耕行业，科技巨头立体式打造全产业生态。

头部算法企业的布局是横向拓展基础技术，建立基础平台。例如，商汤以人脸识别技术起家，逐渐拓展到人体分析、机器人、无人驾驶等领域，加上GPU超算中心和云计算平台，逐渐将自身打造成一个基础的人工智能平台，然后探索在应用端的迅速落地。

垂直领域龙头公司的布局是纵向打通计算机视觉框架，深耕所在行业。例如，安防设备龙头海康威视逐渐脱离了与初创算法企业的合作，自主研发关键技术，并在ILSVRC（2016）图像分类获得第一名；此外，还推出了AI Cloud平台，着力解决算力问题。通过纵向打通基础层、技术层和应用层，垂直领域龙头公司可以提出更加智能的行业解决方案。

科技巨头公司的布局是以平台为核心立体式地推进，打造全产业生态。例如，Google以TensorFlow及Google Cloud为核心，横向上进军图像分析、文字识别等技术，推出Google Lens等视觉服务产品；纵向上向下拓展基础硬件推出TPU芯片，向上拓展医疗（Verily）、无人驾驶（Waymo）等垂直领域，逐渐打造包括计算机视觉在内的人工智能大生态。

2.智能语音：产业进入爆发期，看好对话式人工智能发展

智能语音技术逐渐成熟，未来几年市场将维持高速增长。根据Gartner发布的2018年AI技术成熟度曲线，语音识别已经进入“实质生产高峰期”，意味着语音识别技术已被广泛接受，规模化落地即将开始。此外，像自然语言处理、虚拟助理等相关智能语音技术历经淘洗之后即将落入“泡沫化低谷期”，商业模式越来越成熟，也将进一步推动智能语音的落地。根据ReportLinker的预测，全球智能语音市场规模将从2018年的75亿美元增长至2024年的215亿美元，其中医疗健康、移动银行以及智能终端智能语音技术快速增长的需求将成为主要的驱动因素。

国内外市场均已相对集中，头部企业占据大部分市场份额。根据中商产业研究院的数据，2018年智能语音全球市场CR5达到88%，中国市场CR5达到84.6%，均已呈现出相对较为集中的市场格局。值得注意的是，国内的市场格局与国外存在着明显的差异，主导国外市场的巨头玩家如Nuance、谷歌等并没有在中国市场取得同样的市场地位。

我们认为，这种现象主要是由两方面原因造成的：一是由于中文与外语在分词及句法的逻辑等方面有着明显的不同，并且中国有大量独具特色的方言，这种语言上的差异使得国内企业在中文处理上独具优势；二是受益于国内互联网和移动互联网的高速发展，智能语音在国内具有更加丰富的落地场景和商业化环境。这种“天时”、“地利”的优势使得中国企业领跑国内市场。

现阶段，产品化能力是智能语音初创企业核心壁垒。一方面，从技术的角度，在无噪音环境下，机器的语音识别准确率已经达到相当高水平，未来上升空间有限。科研界将错词率（Word Error Rate, WER）视为衡量语音识别技术的核心指标（准确率=1-WER），其中人类的平均WER为5.9%（即94.1%的准确率），受过严格专业训练的速记员平均WER为3%（即97%的准确率）。

自2016年机器的语音识别准确率首次超过人类平均水平以来，目前最好的算法已经可以将准确率做到97.03%，超越专业速记员。另一方面，从商业化角度，技术难以成为企业核心壁垒，产品化能力才是成长的关键。这是因为技术的门槛越来越低，单纯依靠提供技术的商业模式将面临越来越大的竞争因而难以持续，这一点从近几年头部智能语音初创企业如云知声、思必驰等纷纷从技术提供商转向产品/服务提供商就可以看出。

技术全栈化已成为新趋势，产业链延伸是当前最好策略。对于智能语音而言，多数场景下普遍存在的问题是落地体验不好，而这带来了技术上和产业上的两层影响：技术上，落地体验的改善有赖于从硬件到软件、从算法到产品各个环节的紧密协调，在这种情况下，头部企业多倾向于走技术全栈化路线，即打通全链条上的技术环节；产业上，为了实现更好地商业化，企业倾向于通过上下游延伸创造更多价值。最能说明上述两个趋势的例证是当前几乎所有的头部初创企业都在布局专用语音芯片，主要原因是专用语音芯片的应用性能可以达到通用芯片的40-50倍，而同时成本只有通用芯片的1/4-1/3。

通用平台商打造开放语音生态，专业应用商抢占重点赛道。智能语音市场玩家大体上可以分为两种，一种是通用平台商，另一种是专业应用商。通用平台商如谷歌、百度等科技巨头，致力于围绕智能语音开放系统打造智能语音生态。以百度为例，公司在2017年全面开放了语音接口，目前依托DuerOS打造出较为完整的技术、开发与商业生态系统，截至2018年7月底搭载DuerOS的智能设备激活数量已突破1亿台。专业应用商以垂直领域和细分场景为突破口，均有重点布局的赛道。例如，云知声重点布局家居、车载与医疗，思必驰重点布局家居、车载与机器人，两者多有重合但侧重上有差异。

对话式人工智能即将规模化落地，看好智能家居、随身设备、智能车载三个场景。与一般的智能语音应用相比，对话式人工会智能中人与机器之间是双向交互的，机器在追求理解人的意图的同时也会给人以反馈（比如要求人进一步明确意图或者给出选择等）。对话式人工智能的整个人机交互过程可分为唤醒、识别、理解、反馈四个环节。

从供需角度，对话式人工智能的供给方为对话式人工智能的硬件开发者与软件开发者，产品为对话式人工智能应用与服务，包括音乐、视频、游戏等；需求方为终端消费者，整个需求产业链条自下而上包括芯片商、方案集成商、终端设备商、渠道商以及消费者。对话式人工智能的中间枢纽是对话式人工智能平台，由互联网科技巨头、初创AI语音公司等提供。

我们认为对话式人工智能将率先在智能家居、随身设备、智能车载三个场景中实现大规模落地，原因是：1）上述三个场景作为家庭IoT、个人IoT以及车联网的重要入口，是头部企业争夺的重点，例如亚马逊的Echo、苹果的Siri、思必驰的飞歌GS2正是分别瞄准上述场景；2）上述三个场景对智能语音技术的要求相对较低，例如智能家居和智能车载都是在相对封闭的环境，语音唤醒成功率和语音识别的准确率会相对较高；3）上述三个场景中C端用户对交互式人工智能的接受程度较高，IDC调研数据显示89%的人有意向在未来两年内采用对话式人工智能终端，其中智能手机、智能电视、智能音箱、汽车等终端在美中两国用户中期望度最高、使用最为频繁。根据IDC预测，到2020年中国对话式人工智能在智能家居、随身设备以及智能车载的渗透率将分别达到27%、68%、51%。

FAMGA布局启示：车载、医疗、住宿以及企业级应用或是智能语音未来最主要的落地场景，用户隐私和数据安全保护值得关注。

在对话式人工智能领域，Facebook、Amazon、Microsoft、Google、Apple五巨头布局较早，整体上引领技术和产业潮流，相关动向对产业和投资布局具有极大的指导意义。目前看来，五家公司选择了截然不同的发展路径，背后主要原因是公司的业务基因与核心优势具有显著差异。我们梳理了五家公司在对话式人工智能领域的布局和动向，具体如下：

1）Amazon：优势领域在智慧家居，通过开放合作拓展其它场景。Amazon是最早实现对话式人工智能规模落地的巨头之一，其智能音箱产品Amazon Echo系列（包括Echo、Echo Dot等）自2014年推出以来，至去年年出货量已经达到2420万台，全球市场份额始终维持第一。

由于在电商领域具有绝对优势，Amazon在对话式人工智能领域的主要目标之一是主导语音购物市场。目前语音购物主要发生在智能家居场景中，以智能音箱为载体实现。但是除语音购物以外，Amazon在提供其他服务上并不具备优势，主要原因在于相对缺乏丰富的软件应用支持。因此，公司采取了相对开放的策略，最值得关注的动作之一是创建了Amazon Connect Kit协助开发者为用户提供更多可以接入Alexa的定制化硬件产品和应用服务。截至2月份，全球已经有超过4500个品牌、2.8万个智能家居终端接入到了Alexa上，家电巨头如LG、三星、GE等都有产品接入。

除智能家居场景外，Amazon也在拓展其他场景，例如去年8月推出了Alexa Auto SDK以帮助汽车制造商将Alexa语音控制功能集成到汽车娱乐信息系统上。我们认为Amazon在对话式人工智能的场景拓展上的主要劣势在于缺乏其竞争对手如 Google、Apple等均具备的手机、平板、PC等多种硬件级入口。根据IHS的预测，到2020年Amazon Alexa的市场份额将被显著压缩，跟我们的观点相符。

2）Google：背靠强大的自然语言处理技术及丰富的软件群发力服务领域。Google有着多年的自然语言处理技术沉淀，在底层对话式人工智能技术上占据相对优势。根据公开信息，2019年Google将支持超过30种语言的语音识别与自然语言处理，并具备同时理解两种以上语言的能力。此外，Google还拥有包括邮件、地图、搜索等在内的庞大SaaS软件群，同时拥有手机、平板、PC等多种硬件终端，使其可以收集并使用更丰富的场景下用户的语音数据来提升自身处理语音请求的能力。我们认为，上述两个优势是Google在智能音箱出货量上能够快速追赶Amazon的主要原因（见图表27），同时也是Google在个人服务领域和公共服务领域落地对话式人工智能技术时的独特竞争力所在。

在个人服务领域，Google推出了Duplex聊天机器人，该机器人最大特点是可以模仿人声拨打和接听电话，在对话时能实时理解对方意图并做出及时反馈，同时输出的语音中还会包含停顿以及“嗯”、“额”等常见的口语用词，已经很大程度上做到了拟人化。此前Google收购API.AI也是为了增强其聊天机器人的技术实力。API.AI提供聊天机器人的开发框架，具备意图识别、上下文管理等多种功能，使得Google可以强化聊天机器人的智能水平。

在公共服务领域，Google重点关注医疗及住宿。医疗领域，Google将智能音箱、谷歌助手等产品部署到了医院及疗养院，用户可以通过上述产品寻求医生帮助，医生也可以通过手机App追踪用户请求；住宿领域，Google通过投资酒店聊天机器人公司GoMoment以及开发谷歌助手的翻译模式等方式使得酒店从前台接待（如登记住房）到客房服务（如点外卖）实现自动化及智能化，抢占酒店服务市场。

3）Microsoft：避开直接竞争，剑指企业领域。Microsoft在对话式人工智能领域的起步稍晚于Amazon和Google，同时在消费级市场也并不具备入口与应用优势，因此Microsoft主要拓展对话式人工智能在其传统优势领域——企业领域的应用，从策略上避开了与Google、Amazon等巨头的直接竞争。公司还跟Amazon进行合作，跨系统打通了Cortana和Alexa，使得用户可以通过Cortana唤醒Alexa进行购物，也可以通过Echo或者其它Alexa设备唤醒Cortana进行办公。由于Amazon和Microsoft的优势领域不同，这种合作的互补显而易见。

此外，Microsoft还申请了一项专利，该专利使得用户可以轻声唤醒数字助理，为用户在公共场合使用对话式人工智能终端提供了便利，凸显了公司对企业领域的重视。

4）Apple：关注用户隐私和数据安全。Apple于去年11月收购了致力于开发可以部署在消费级终端上的轻量级的AI应用的初创企业Silk Labs，此外还申请了离线唤醒Siri以及声纹识别两项专利。公司的主要目标是使对话式人工智能技术可以在终端而非云端实现，从而排除用户对个人隐私和数据安全的忧虑。Apple发力隐私和安全与其过往遭受多起关于侵犯用户隐私的集体诉讼有关，可以说公司对C端用户的痛点具有超越竞争对手的深刻认知。

5）Facebook：战略聚焦聊天机器人。Facebook也采取了跟Amazon合作的策略，我们认为主要原因有两个：一是公司在对话式人工智能领域起步较晚，2018年才推出智能音箱Portal，在五巨头中已处于相对落后地位；二是公司在去年遭遇了关于泄露用户数据和隐私的巨大丑闻，跟Amazon合作可以缓解外界对公司获得和滥用数据的担忧。公司主要关注对话式人工智能在社交领域的应用，2015年初收购了语音指令创业公司wit.ai，此后在Messenger应用上大规模部署了聊天机器人。在2016年4月的Facebook F8开发者大会上，Facebook宣布Messenger为未来十年重点项目之一，并邀请开发者加入Messenger一同开发聊天机器人。

3.重点公司介绍

3.1商汤：AI算法提供商龙头，平台化战略赋能公司和行业

AI算法提供商龙头，“1+1+X”打造核心平台。公司成立于2014年，创始人为香港中文大学工程学院教授汤晓鸥，业务聚焦于计算机视觉和深度学习领域，拥有2200位员工，其中约150位拥有世界顶级大学博士学位。2018年9月，公司被科技部选为“智能视觉”国家新一代人工智能开放创新平台建设依托单位。公司采取平台化战略，主要的业务模式是首先进行前期基础技术研究，然后结合当前行业应用热点生成相关产品和服务，最后进行营销和推广，即“1（基础研发）+1（产品和服务化）+X（行业应用）”打法。当前公司战略推进顺利，去年5月31日公司公告表示2017年已实现全面盈利，业务营收连续三年保持400%同比增长，2018年主营业务合同收入同比增长10多倍。

内生+外延，围绕计算机视觉展开全方位布局。公司通过内生和外延不断拓展技术和业务边界，提前进行产业布局。内生上，公司以人脸识别技术起家，当前核心技术已覆盖人脸、人体、图像、视频、SLAM与3D、机器人、无人驾驶等多领域计算机视觉技术，并且仍在不断横向拓展，进而衍生出智能视频、身份验证、移动互联网、智慧商业等多类产品和服务，覆盖智慧城市、智能终端、互联网娱乐、智慧金融、智慧商业、遥感、移动运营商、无人驾驶、AR/VR等多个应用场景。外延上，公司通过成立投资部门，通过直投或者产业基金方式向下游延伸布局新应用和新场景，投资标的以在垂直领域已建立起行业场景、占据一定地位或者已具备一定行业认知及客户资源但技术和产品尚不成熟的初创企业为主，例如医疗健康领域的AI初创企业禾连健康、VR看房企业51VR等。

2015-2016两年，公司及其联合实验室的CVPR、ICCV 和 ECCV论文数量高达 76 篇，超过加州大学伯克利分校、斯坦福、麻省理工等国际顶级名校及 Google、Facebook 等科技巨头；2017年，公司以43篇CVPR 和 ICCV论文雄踞亚洲第一；2018年，公司再度以81篇CVPR和ECCV论文傲视群雄。

算法储备丰富、算力供应充沛，长期发展具有深厚底蕴。根据公开资料统计，公司2015-2017年在三大顶级计算机视觉会议（CPVR、ICCV及ECCV）上共发表了119篇论文，内容涵盖深度学习、无人驾驶、物体检测等诸多领域，数量上仅次于微软和CMU，远领先于国内其他企业。2018年，公司以81篇CVPR和ECCV论文创下中国AI学术新纪录，展示出越来越强的学术研究能力，也说明公司在算法领域有着丰富的储备。此外，公司自主研发了支持千亿级参数模型、百亿训练样板、亿级类别分类任务的深度学习框架Parrots，以及拥有超过6000块GPU并支持千卡并行训练的亚洲最大超算中心，算力供应充沛，保证了模型可以得到快速验证。

我们认为，公司重视基础研究，强调技术原创，在算法、算力上都能充分保障自身技术顺畅迭代，长期发展具有深厚底蕴。

3.2旷视：优秀的人脸识别平台企业，战略进军AIoT

人脸识别先行者，软硬件结合深入垂直场景。公司早于“四小龙”其它三家公司成立，三位联合创始人印奇、唐文斌、杨沐均毕业于清华姚班，当前拥有约1500名员工。公司早期业务以开发C端人脸识别相关互联网应用为主，后转向提供B端计算机视觉相关产品和服务，旗下Face++是当前世界上使用量最大的人脸识别引擎。公司主要的业务模式是基于核心计算机视觉技术深入垂直场景提供行业解决方案。目前，公司相关产品和服务已经广泛应用于金融、安防、手机等多个领域，拥有包括阿里、蚂蚁金服、富士康等在内的上千家核心客户。公开信息显示，依靠多领域的业务落地，公司近年来实现了5至7倍的营收增长，2017年已实现盈利，主要收入来自于金融和安防。

战略进军AIoT，打造个人、城市、供应链“大脑”。2019年1月16日，公司公布了从AI到AIoT的全新战略，战略定位从算法提供商全面升级为AIoT解决方案提供商，并推出了智能供应链操作系统“河图”。根据我们的梳理，公司目前个人生活大脑、智慧城市大脑、智能供应链大脑三大“大脑”场景业务群，其中：个人生活大脑以连接个人终端为主，聚焦于为C端用户提供人脸解锁、人脸支付等服务，应用场景包括手机解锁、身份验核等；智慧城市大脑以连接城市摄像终端为主，聚焦于为G端客户提供智能门禁、智能迎宾等产品/服务，应用场景包括智慧社区、教育管理等；供应链大脑以连接工业机器人为主，聚焦于为B端客户提供“货到人”、“订单到人”等解决方案，应用场景包括智能工厂、智能仓储、新零售等。近两年公司在外延方面表现活跃，先后投资了机器人、娱乐、零售等多个领域的初创企业，业务布局持续延伸。

强大的软硬件结合能力以及“阿里系”背景是公司核心差异化优势。公司自2015年起涉足硬件，陆续推出了摄像头、人脸识别面板机、人证核验一体机、服务器、搬运机器人等十余款软硬件结合产品，在初创企业中处于绝对领先地位。我们认为，从算法到产品/服务有天然隔阂，优秀的算法并不能保证优秀的产品。

公司的历史发展表明其具有强大的软硬件结合能力，能够保障其技术端领先优势在产品端的延续。我们认为，软硬件一体化是打造商业闭环的必要条件，仅依靠算法无法满足行业客户的整体需求，安防行业内AI算法提供商可以获得部分项目机会但始终无法撼动安防设备龙头的地位即是最明显的例证。此外，公司还是“四小龙”中唯一一家两次获得“阿里系”投资的企业，我们判断公司是阿里在计算机视觉领域选定的战略抓手，未来“阿里系”可能会有更多资源注入，从支付宝、滴滴、天猫超市等“阿里系”公司相继采用公司产品来看也能部分验证该想法。

我们认为，公司软硬件结合能力突出，保障了技术端优势在产品端的延续，具备打造商业闭环的潜力；同时，公司背靠股东“阿里系”，在金融、出行等多个领域有望被注入更多资源，有较强的盈利支撑，因此具备极大竞争优势。

3.3依图：注重实战，业务聚焦于安防和医疗

实战型AI公司，善于从行业里寻找研究课题。公司成立于2012年，创始人为ULCA统计学博士朱珑及前阿里资深云计算专家林晨曦，当前拥有约700名员工。公司与“四小龙”中其他几家企业最大的不同点是其技术并非来自创始团队的科研成果转化，而是从零开始，先选择行业，然后针对企业需求进行课题研究。基于这种打法，公司于2013年为苏州公安开发了车辆识别系统，将套牌车的识别率从不足30%提高到90%，在初战告捷后又推出了人脸识别系统并同样取得成功，吸引了公安客户。我们认为，公司的这种基因和业务模式决定了其更加注重实战，也意味着具有更强的行业痛点挖掘能力。

业务聚焦于安防和医疗，积极布局智慧金融。公司的战略是深耕行业、深挖痛点，业务聚焦于安防和医疗两个行业：安防领域，公司的主要产品为“蜻蜓眼”系列，包括蜻蜓眼人像大平台和蜻蜓眼车辆大平台，目前已在全国二十多个省份、上百个地市公安系统以及海关总署、中国边检等得以应用；医疗领域，公司的主要产品为care.ai系列，深入疾病预防、检查、诊断、治疗和科研等各个环节，目前已落地全国100多家三甲医院。除安防和医疗外，2015年公司通过为招商银行提供人脸识别技术切入金融领域，相继提出了、远程核身、刷脸取款、智能网点等多个解决方案，客户以银行和互联网金融公司为主。此外，公司还通过外延方式进一步布局，除继续深化在医疗领域的布局外，还投资了芯片初创企业ThinkForce，展示了进军芯片的意图。

先发优势明显，实战指标领先。公司是最早进入智能安防领域的AI企业之一，2014年起即已实现智能安防产品的规模化落地。公司实战指标处于国内领先地位。以人脸识别的准确率为例，公司在由美国国家标准局NIST组织的人脸识别供应商测试FRVT（2018）最新报告中综合排名世界第一。不同于由学术机构组织的人脸识别竞赛，FRVT更贴近安防实战，测试集来自美国国土安全局真实业务场景，数据更加复杂和多样，因此参赛者的成绩很大程度上可以代表其实战水平。我们认为，公司实战指标之所以领先，是由于其人脸识别产品较早实现了规模化落地，因而在使用真实场景数据改善算法方面具有先发优势，这对其技术进步起到了巨大的推动作用。

3.4云从：AI国家队，银行、机场人脸识别产品第一大供应商

公司是银行和机场人脸识别产品第一大供应商。公司成立于2015年，创始人是UIUC博士、中科院“百人计划”人选周曦，当前拥有员工400余人。公司聚焦于计算机视觉技术，产品以人脸识别、文字识别、活体检测为主，应用方向集中在金融、交通、安防三大行业，目前是国内银行和机场人脸识别产品的第一大供应商：在银行领域，截至2018年3月，在121家已完成招标、具备自建系统能力的银行中，公司中标了包括四大行之内的88家总行平台，市场占有率高达72.7%；在机场领域，截至2018年7月，已有54家机场选择公司产品，覆盖全国75%的枢纽机场。

公司深耕三大行业，布局智慧商业。公司的业务布局思路为在金融、交通、安防三大行业内深挖应用场景，同时通过合作布局商业。例如，在金融行业，公司积极拓展非银机构，向杭州消费金融、分期GO等互联网金融公司提供实名认证等服务；在交通行业，与中国民航管理干部学院共同成立智慧民航联合研究中心引领机场智慧化等等。在商业领域，公司中标中国电信生物识别平台项目，将联手电信实现全网实名制，杜绝电信诈骗。

“国家队”背景有助于公司拓展安全敏感行业。公司是孵化于中科院重庆研究院的高科技企业，股东名单中有多只国家战略投资基金，是“四小龙”中唯一没有外资入股的企业。此外，公司还是唯一一家参与人脸识别国标、部标、行标制定的研发企业，并且承担了发改委牵头的国家人工智能基础平台重大项目。我们认为，上述事实给公司贴上了“国家队”的标签，在国内核心技术自主可控的大趋势下，公司的“国家队”背景有助于其在安全敏感行业的拓展。

3.5云知声：“云端芯”战略，重点布局家居、车载及医疗三大领域

公司是优秀的智能语音专业应用提供商，多个垂直领域市场地位领先。公司成立于2012年，发展至今历经三个阶段：第一个阶段为以发育云端语音识别能力为主，通过开放语音平台吸引了近一万家企业客户接入；第二个阶段定位做AIoT，开始在‘端’上发力，探索技术的产品化，例如与乐视合作推出可以进行远距离自然语言交互的乐视第三代TV；第三个阶段场景落地阶段，通过为家电厂商美的、汽车厂商上海通用、公立医院北京协和等提供智能语音解决方案，落地智能家居、智能车载、智能医疗等场景。

公司官网显示，公司目前的合作伙伴已经超过2万家，覆盖用户达2亿，其中开放语音云覆盖的城市超过470个，覆盖设备超过9000万台。此外，公开资料显示，在智慧教育领域，公司的教育评测平台的高峰调用量达到每天3亿次；在智能车载领域，已经落地30多个车型；在智慧医疗领域，已与500多家医院达成合作，均处于同行业领先地位。

“云端芯”全产业链布局，重点经营家居、车载、医疗三大领域，抢占教育、机器人赛道。公司2014年正式定位做AIoT服务商，确立了“云端芯”战略，即将基于云端的智能语音技术与终端设备和芯片紧密联合，通过云端提供服务、设备端实现算法、芯片提供算力的全栈方式打造生态闭环。公司近一年在芯片端的发力迹象比较明显，于2018年5月制定了UniOne系列芯片计划，并推出了面向智能家居和智能音箱的第一代芯片“雨燕”，同时计划于2019年和2020年推出面向智能车载领域的第二代芯片“雪豹”和面向智慧城市的第三代芯片“旗鱼”。

在落地场景上，公司重点经营家居、车载以医疗三大领域：家居领域，面向家电厂商推出了UniHome智能语音解决方案芯片；车载领域，面向车联网产品开发商以及整车厂商推出了UniCar“云端芯”一体化解决方案；医疗领域，面向医生推出了智能语音录入软硬件一体化解决方案。除上述三大领域外，公司还积极抢占教育和机器人赛道：教育领域，推出了面向教育机构的智能语音评测系统；机器人领域，推出了软硬件一体的行业服务机器人和面向儿童早教的UniToy机器人解决方案，此外还有面向客服的SaaS 模式的SAMANTHA智能电话机器人。

人才优势、先发优势铸就公司核心竞争力。根据IDC的调研，对话式人工智能落地面临的两个最大问题是人才及落地案例的缺乏。公司的核心团队来自IBM、摩根大通、中科院、剑桥等全球顶尖公司和院校，人工智能研究院研究员中博士占比超过45%，产品和运营团队来自Nuance、阿里巴巴等国内外知名公司，人才优势明显；另外，公司较早进入家居、车载、医疗领域，在跟B端企业合作上以及终端用户需求的理解和隐私保护等方面都具备较多know how，后进者难以在短时间内完成追赶。我们认为，人才优势结合先发优势助力公司在场景拓展和深耕上都具备极大竞争优势，看好公司发展。

4. 风险提示

计算机视觉及智能语音初创企业商业模式不清晰，盈利能力有限；

计算机视觉及智能语音技术发展、应用落地速度不及预期；

新竞争者的涌入导致计算机视觉及智能语音行业竞争加剧等。