数字人也有“灵魂”？大模型被三六零玩明白了

您的位置：首页 >> 财经频道 >> 风险投资 >> 文章正文

加入日期：2023-6-15 13:46:07

　　昨天下午，还是那袭红衣，360集团创始人周鸿祎又带着惊喜来了----智脑大模型4.0版发布会如期召开。

　　这距离3.0版的发布也就13天，离2.0版也就26天，也就是说不到一个月就连发两版，先不说其他，光这“成长”速度就不得不令人咂舌。

　　当然，国内大模型这种“你追我赶”的势头，有利于我国大模型能力的快速提升乃至相关产业链，形成更浓烈的创新环境和氛围，对用户和中小企业们等参与者未尝不是一件好事。

　　可能是有了前几次的经验，再加上权威评测数据的铺垫，市场对于此次发布会的期待亦可见一斑---三六零于昨日早盘迅速拉涨，直逼涨停，并带动一众大模型概念股集体飘红。

　　事实上，360的这场发布会全场看下来，也算是不负众望---干货满满、金句不断，甚至不乏一些惊艳之举。

　　大体而言，本场发布会的核心或者说重头戏可以归结为三件事：展示4.0版的多模态能力、360全系产品接入、重新定义数字人。

1 展现多模态交互能力

　　在周鸿祎看来，国内大模型的基础能力基本处于同一起跑线上，但迭代速度已经接近国际平均水平，要想“弯道超车”关键还需在多模态领域发力。

　　“未来大模型的能力是多模态能力的竞争，只有多模态的全面能力，才能标志着大模型真正地迈上一个新的台阶。”他认为。

　　360于2015年成立AI研究院，2018年开始发力多模态。如今的360智脑4.0已具备跨模态生成能力，包括文字处理能力、图像处理能力、语音处理能力、视频处理能力。具体可实现图生图、文生文、图生文、文生图、视频生文、文生视频等，并在现场得到了逐一演示。

　　1）文生图：生成“熊猫爬长城”

　　2）图生图：例如身份证生成证件照、证件照换背景；

　　3）图生文：根据图片描述、判断图片不合理的地方

　　4）视频理解：检测视频中的车辆、广告牌、检测高层建筑等物体，可增加不同的前缀

　　5）文生视频：例如熊猫划船等

　　其中，此次360智脑“文生视频”多模态功能乃是国内首发，任何文字脚本都可生成视频，不受素材限制，国外现在也只能生成10s的视频。

　　未来的通用智能一定是多模态智能，这点在业内基本已成共识。相比大语言模型，多模态AI在技术上远未收敛，无论在科研、工程还是应用层面，都是一片广阔天地，大有可为。

　　如果说GPT等大语言模型开启了应用创新的新时代，那么多模态AI将会把这一轮应用创新推到最高潮。

　　但是多模态AI的难度也是可想而知的。例如，文生图这样最基础的跨模态任务，或许今天许多人认为已经完美解决。Stable Diffusion + ControlNet + LoRA的组合看上去无懈可击，Midjourney工具用起来也似乎得心应手。

　　但真实情况是，基于扩散模型的文生图算法在娱乐和大众传播领域非常受欢迎，但想融入专业制作流程或取代职业美术师，还是有相当的难度。

　　文生图尚且如此，那文生视频、文生3D、文生动画，图文混合逻辑推理等更难的任务，今天确实还处在非常早期的阶段。

　　事实上，大模型本身已具备多模态能力。通过大模型学习多模态知识，来加速多模态AI的开发与应用被业内视为一条值得探索的路径。至少，目前360又让我们又看到了这样的希望。

2 重新定义数字人

　　在周鸿祎看来，仅靠大模型基础功能的发展，并不能带来工业和产业革命，关键还需要实现与更多场景结合、走向应用。

　　其中，360基于大模型“激活”的AI数字人，并提出“有灵魂的数字人”的概念，不论是其构想还是现场演示情况，绝对都称得上是惊艳了。

　　为什么选择数字人领域？

　　他认为，数字人是未来人工智能大模型最重要的应用入口。而没有大模型支撑的传统数字人只能按既定脚本输出内容，不能交流，且没有性格和记忆。

　　所以，按其计划，360将依托360智脑大模型能力，打造有记忆、有人设和性格，能够复刻思维方经历的AI数字人，重新定义“数字人”。

　　另外，由于数字人多多应用于虚拟偶像，使得数字人应用场景受限，多应用于泛娱乐场景。对此，360AI数字人给出了一个更优解，将打开当前数字人应用的想象空间。

　　360推出了一个“数字人广场”的平台，目前拥有200多个角色，分为数字名人和数字员工两类。

　　其中，数字名人包括历史人物、偶像明星、文学形象等，让用户在与数字人的开放对话中实现与偶像的近距离接触，与先贤的思想交流；数字员工能够参与创作、策划、分析、总结日常工作，成为企业员工的知识助手和办公助手，从而提升企业运营效能。

　　与此同时，周鸿祎现场演示了“法务专员”数字人角色，对中小企业常见的公章管理和合同审核问题给与了专业回答。

　　特别是数字员工的出现，打开了市场对于数字人应用场景的想象空间，拓展了数字人应用的可触及边界。

　　此外，360AI数字人还支持定制，每个人都能通过上传私人知识库，低成本生成自己的专属数字人，如数字分身、数字助理、数字偶像等。

　　事实上，数字人产业自2010年发展至今，已经有很长一段时间了。但AI数字人发展尚处早期水平，未来成长潜力可想而知。

　　根据IDC的预测，中国AI数字人行业即将在2023-2026年进入规模增长最快的时期，并且2023年作为大模型爆发的“元年”，在AI大模型的加持下，数字人市场步入高速发展期基本是可以预见的。

　　当然，目前数字人企业入局者甚多，不仅有互联网巨头，也有初创公司。而随着而随着上游技术和中游服务日益成熟，数字人的创造和应用门槛随之变低，导致了虚拟数字人“放量”，竞争加剧，即使是高端超写实虚拟数字人也出现了激烈的竞争。

　　针对数字人产品普遍同质化的困境，创造更优质的产品应为破局的可行之道，这与360AI数字人的思路可谓是不谋而合。

　　据市场人士分析认为，360AI数字人打破了传统数字人的定义和生产方式，打造的是完全具有自主交互能力的数字人，完全不需要人工进行干预，将重新定义“数字人”的概念。

　　从发展阶段来看，IDC指出目前数字人多处在L1-L3阶段，未来将逐步过渡到L4-L5阶段的纯AI驱动阶段。其中，L1-L3阶段的数字人生产包括简单的人物形象，依赖外部设备采集人体特征信息，再到依靠算法驱动肢体动作等等，之后更多在交互上实现突破，而L3阶段也只限于文本和图片的简单交互方式。

　　但以360AI数字人的底层逻辑和所展现的能力来看，其已开始跃进到L4-L5阶段，即纯AI驱动，并且表现出不需要人工控制的高智能化水平，完全由数字人自主进行决策以及执行任务，同时在交互方式上也有新的突破，实现流畅的语音化实时交互，这是目前数字人行业中极少有公司能够做到的。

　　鉴于上述，360依托大模型创新的极具特色的AI数字人，将在“百舸争流”的数字人市场占得先机，并有望凭借显著的稀缺性，快速抢占市场，同时也可在该细分领域掌握一定的AI话语权。

　　当然，目前360AI数字人应用也并不能说是尽善尽美的。周鸿祎也坦言，目前唯一的问题是回答不稳定，所以还需要提高，未来数字人也还会继续迭代。

　　归根结底，360AI数字人得益于背后“360智脑4.0”强大的多模态能力支撑。

　　不可否认，多模态AI的技术挑战真实存在，但有挑战就意味着有机会。通过技术突破、技术创新在多模态AI领域大步前进，目前正是最好的时机。

3 360大模型战略：两翼齐飞，四路并发

　　周鸿祎将360的大模型战略概括为“两翼齐飞+四路并发”。

　　其中，“两翼齐飞”指一手抓核心技术研发，另一手抓优势场景落地。

　　而“四路并发”则指在用户端，将360GPT的产品矩阵“360智脑”与搜索场景结合，推出新一代智能搜索引擎，现已定向邀约企业客户测试，未来还将推出AI浏览器、AI个人助理等产品；在中小企业端，将推出结合“360智脑”能力的SaaS化垂直应用；在政府及企业端，将开拓私有化大模型蓝海市场，为城市及企业打造定制化的GPT；在安全领域，将核心的安全能力与GPT结合，推出360GPT安全应用框架。

　　来源：公开信息

　　目前来看，随着360智脑快速迭代及AI数字人的推出，说明360已完成从战略规划到大模型基础能力扩展再到应用实践的打通，360大模型的“羽翼”也迅速丰满起来。当然，这一过程其实正应合了周鸿祎所指出的“大模型的价值在于将其能力通用化、垂直化，与具体的业务需求深度融合。”

　　据了解，在经过多轮迭代之后，360智脑目前已具备生成与创作、多轮对话、代码能力、文本分类、文本改写、阅读理解、逻辑与推理、知识问答、多模态、翻译等十大核心能力，维度涵盖数百项细分功能，可覆盖大模型全部应用场景，并在多个第三方评测中位居国产大模型第一梯队。

　　他认为，中国进入“百模大战”，基础能力外，更重要的是应用场景的比拼。所以，也有了会上他宣布“360智脑4.0”接入浏览器、搜索、安全卫士等360全端产品，实现全面智能化重塑，也标志着360进入全AI驱动的智能化新时代。

　　由于搜索引擎的大数据源是构建类ChatGPT产品的核心抓手，不仅有丰富的网页数据和优质的语料库，而且有基于每日用户行为的迭代模型，决定了在大模型国产化背景下的像360这样的国内头部搜索引擎厂商的天然优势，从而获多家券商看好。

　　会上周鸿祎也表示，360大模型研发落地拥有“八大天然优势”，包括技术、算力、场景、大模型安全、搜索增强、内容安全、数据、工程化，完整覆盖大模型训练全程。

　　另外，他也预告，下个月会发布5.0插件版本，使得大模型“有手有脚”。届时360又会带来什么样的惊喜？是不是已有些迫不及待了。