【导读】 实探“AI的盛宴”!华为开发者大会带来什么启示?
中国基金报记者 冯尧
为期3天(6月21日至23日)的 “华为开发者大会2024”,给业界带来了不少惊喜:被称为“纯血鸿蒙”的鸿蒙NEXT面世、“夸父”人形机器人亮相、盘古大模型5.0发布……
其中,鸿蒙NEXT恐怕是迄今为止最“聪明”的鸿蒙系统,其最为重要的三大特点之一,便是 原生智能能力。华为提出了“鸿蒙原生智能”概念,背后仰仗着大模型的支撑。
“夸父”的横空出世,展示了识别物品、问答互动、击掌、递水等能力,这同样离不开 盘古具身智能大模型的加持。盘古具身智能大模型提升了机器人的智能及泛化能力。
而盘古大模型则在一年内从3.0版本进化为5.0版本,带来了全系列、多模态的变化。其参数覆盖面从十亿级到万亿级,而多模态能力令盘古大模型能够更精准地理解世界。
所有的蜕变都离不开人工智能。记者在此次一线实探中,深切感受到人工智能带来的科技“温度”。毫不夸张地说,此次华为开发者大会实际上更像是一场“AI的盛宴”。AI让一切变得更“聪明”,一切都离不开它。
但在参加此次华为开发者大会的业内人士看来,无论AI未来如何进化,其最终归宿将是跨入产业。“尽管国内算力受限、也没有算法优势,但国内拥有全球最全的工业门类,行业数据最全、场景最多,行业大模型大有可为”,业内人士如是表述。
“小艺”为何变聪明了?
在华为开发者大会的鸿蒙展示区域内,工作人员向记者展示了鸿蒙NEXT的原生智能能力,即用各类图片对“小艺”进行“投喂”。
例如,在识别人们并不熟悉的旅游景点建筑时,“小艺”在识别后会明确给出景点的详细资料,同时会附上相应的旅游攻略,供用户参考。
再如,当“小艺”识别人物照片时,甚至可以知悉人物着装的品牌,包括衣物、背包、鞋类等,同时“小艺”可以帮助用户识别衣物等物品所对应的商店、网店,更便于用户购物。
而当用户搜寻文档时,“小艺”甚至可以根据要求,提取其中重要内容并生成PPT,供用户使用。也就是说,只需将文字、图片、文档“投喂”给小艺,其即可便捷高效处理文字、识别图像、分析文档。
这依赖于鸿蒙NEXT与AI的融合升级,华为也提出了“鸿蒙原生智能”概念。
实际上,就在不久前的苹果全球开发者大会上,苹果就发布了其自研的Apple Intelligence(苹果智能),并宣布其Siri语音助手将接入GPT-4o,构成iOS+AI的智能体体系。
而华为也将操作系统层的鸿蒙和模型层的盘古联合起来,共同构建系统级原生智能,这在国内尚属首次。
盘古上身 “夸父”出道
另一边,在华为云的展示区中,人工智能的氛围更为浓厚。其中, 人形机器人“夸父”身边聚集了众多参会者。
在6月21日的发布会上,“夸父”现场演示了复杂任务执行,包括与华为常务董事、华为云CEO张平安击掌,分辨位于它面前的与华为有关的物品,并在得知主持人口渴时,将面前桌上的水递给了主持人。
而在展示区内,“夸父”与参会者近距离接触。在展示现场区内,这款机器人通过理解工作人员的食物喜好,来搭配食材,并烹饪美食,同时展示了行动能力。
实际上,“夸父”并非新产物,其为乐聚公司推出的人形机器人。而乐聚是一家老牌人形机器人公司,创立于2016年3月,总部位于深圳。
资料显示,“夸父”发布于2023年12月,重约45kg,全身26个自由度,行走速度最高可达4.6km/h,可快速连续跳跃,跳跃高度超20cm。其搭载自研一体化关节和深度摄像头,可实现全方位视觉感知。
真正令“夸父”实现进化的是人工智能。据工作人员介绍,盘古具身智能大模型令“夸父”的智能及泛化能力得以提升。
该模型具备多模态(文本、图像、视频)能力,使机器人能够模拟人类常识进行逻辑推理,能够让机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时,盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。
张平安展望了一个未来场景:AI机器人将帮助人们处理日常家务,如洗衣、做饭和扫地,从而让人们有更多时间投身于阅读、创作等更有意义的活动。
其实,人形机器人与大模型的结合是大势所趋。今年年初,英伟达展示了多模态人形机器人通用基础模型GR00T,其可作为机器人的大脑,驱动机器人理解自然语言,通过观察人类行为来快速学习协调、灵活性和其他技能。
而OpenAI与人形机器人独角兽公司Figure合作推出的Figure 01机器人,依托OpenAI的大模型,能仅利用独立神经网络,接收人类指令,并执行向人类传递苹果、整理垃圾、放置餐具的动作。马斯克近期也在特斯拉2024年股东大会上表示,特斯拉的人形机器人将采用大语言模型。
“大模型+人形机器人”蔚然成风。
盘古大模型的进化
其实不难看出, 无论是鸿蒙NEXT系统还是人形机器人“夸父”,令其更为“聪明”的底座均为盘古大模型。而盘古大模型此次也迎来历史性的进化:从一年前的3.0版本,升级成为5.0版本。
盘古大模型5.0在全系列、多模态、强思维三个方面实现全新升级。
其中在全系列方面,其覆盖了十亿级到万亿级参数,从手机到企业云实现全覆盖。而多模态方面的升级,令盘古大模型5.0支持10K超图像识别,能够更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。
例如,当被问到“《清明上河图》中赵太丞家有多少人”,盘古大模型5.0可以在占全图1/200的画面中,识别出细小画面和汉字,并得出“4个人 ”这一正确答案。
但实际上,相较于盘古大模型“炫技”而言,更具有现实意义的是,盘古大模型已经开始扎根于各行各业。
在华为云的展示区内,更多的舞台留给了盘古大模型在各大专业化产业领域的融合,例如工业制造、生物医药、气象服务等。
而且,华为云在此次大会上一口气发布了六个专业模型: 盘古钢铁大模型、盘古高铁大模型、盘古具身智能大模型、盘古工业设计大模型、盘古安全大模型及盘古媒体大模型。
工作人员告诉记者,例如在高铁行业,基于盘古高铁大模型,华为云为高铁检测装上了“盘古眼 ”,帮巡检工人减少了庞大工作量。“一列动车的3.2万个故障检测项点,本来需要4人花费2小时进行检查,而用盘古大模型,自动识别准确率可达99%。”
模型本身只是一张“白纸”
“当前,国内的大模型充满挑战,例如算力受限、没有算法优势等。”一位与会的业内人士对记者表示。
实际上,从GPT-3的1750亿参数规模,到GPT-4非官方估计1.8万亿参数,GPT-5参数量或将突破10万亿,OpenAI、Google等均沿着这条路径一路前行。
“如果参数无限向上,大模型最终是否能够通往通用人工智能,目前没有人能够得到确切答案。” 他表示,从当前现实情况来看,一个通用的大模型,尽管可能拥有千亿级别的参数,几乎可以回答任何问题,但是在专业领域的表现可能只是普通甚至难以胜任。
再加上随着模型规模不断增大带来的模型幻觉、居高不下的训练成本以及算力资源的稀缺等挑战,都成为摆在业内的现实问题。
“不止国内需要面对算力资源的稀缺问题,全球都会面对这一问题。所以,把有限的算力用好,汲取硬件资源提供的每一分能力,成为业内首要考虑的问题,这也是突破算力瓶颈的必然之路。”一位华为云人士表示。
“模型本身只是一张‘白纸’,上面画出什么样的一幅‘画’,由数据决定,需要高质量数据。”他如是表述,“国内拥有全球最全的工业门类,行业数据最全、场景最多。”
在多位受访人士看来,大模型的发展将趋向通用化与专用化并行,企业对于大模型的需求不仅仅是实现通识,更需要其成为特定领域的“最强大脑”。面向行业解决特定问题的专属大模型,将加速企业数据价值的释放、提高数据和知识的利用率。
根据IDC相关调研显示,目前有60%的企业使用大模型的公开版本,但两年后会迅速降至17%,更多的企业会将AI应用建立在私有、专属模型基础上。
“行业市场需要更丰富的、更多种类的行业大模型应用到具体场景里去产生价值,而不只是一个大模型无限泛化能力去解决所有问题。”上述华为云人士表示,“大模型只有融入企业运营、紧贴应用场景,才能真正发挥带动产业升级的作用。”
编辑:小茉
审核:许闻
版权声明
《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。
授权转载合作联系人:于先生(电话:0755-82468670)
Copyright © 2008-2020 【启盈配资】广东天雄投资控股有限公司 粤ICP备18158468号-1 股市有风险,投资需谨慎