当前位置: 主页 > 图文评测 >

Zhang Jianwei:具体的智能数据要求将是自动驾驶和大语言模型的1

发布者:365bet官网
来源:未知 日期:2025-08-10 09:11 浏览()
8月8日至12日在北京经济和技术发展区开业的“ 2025年世界机器人会议”。“ AI大型模型,使机器人能够赋予机器人并推动新的Paradigaw交流活动的智能产业”,作为2025年8月8日举行的世界智能解决方案的2025年世界机器人会议的特别活动。 以下是语音成绩单: 下午好,大家,我是广泛情报的张江。我今天将与您分享的话题是“合成数据加速进入物理世界的具体智能”。我还听了分享今天下午的所有内容,一些制作的本体论和一些模型,但是每个人都提到这更多的是关于数据,当然,有些是真正的数据集合。 我们正在做的事情有所了解,主要是在合成数据领域。 我的股票现在关注两点: 第1部分:我们对合成数据的理解。 第二部分是研究我们做的一些事情。 首先,查看AI组,我们注意到了两个趋势: 首先,AI以多模块的方式生成端到端,包括大型语言模型,自主驾驶和体现的VLA字段。所谓的端到端意味着使用更多的神经网络替换更多的模块。例如,在自主驾驶领域,我还使用了智能驾驶 - 端到端的出现使我们可以看到,在自主驾驶领域,对多模块架构的先前理解,预测和计划被一般的端到端网代替。富有的情报采用了VLA网络的体系结构,本质上是端到端体系结构。端到端的出现意味着我们需要更高质量的数据来改善AI的整体性能。 其次,变压器网络模型的出现和广泛应用使我们可以看到AI正在以“数据为中心”方向发展。数据r的质量rEfers to ai性能。因此,在这两个趋势下,我们可以说AI时期现在是以数据为中心的实时时间。 回到今天的话题,我们认为,体现智能所需的数据将是自动驾驶和大型语言模型的1000次。首先,一些客人提到敌人的数据相对特别并且有很大的需求,因为知识分子的希望现在机器人可以进入数千个家庭,并将其应用于各种情况,例如行业场景,家庭情况和超市场景。在不同的情况下,需要具体的智能才能具有更好的一般通用,这需要越来越丰富的数据,因此数据需求将比自主驾驶和大型语言模型高三个数量级。 其次,所体现的数据强调身体接触。例如,大语言模型可以是文本,VLM模型可以是文本 +视觉,并且自主驾驶可能会有E更多的LIDAR和毫米波雷达,而体现的情报则更多地关注与物理世界的接触,包括动物运动的运动和评论强度的运动。一些客人早些时候提到了机械传感器。本质上,我们希望迎接的情报能够真正感受到物理世界,因此我们对数据有更强的身体联系要求。 第三,因为体现的智能具有不同的形式 - 机器人狗,人形机器人,机器人手臂,人形机器人机器人被分为不同形式,例如轮胎和双皮德。体现智能所需的数据也是异质的,在不同情况下,收集的机器人标准很难应用,因此数据需求也是异质的。 第四,体现智能的数据差距很大。与可以从Internet获取大量数据的大型语言模型不同,自动驾驶可以通过数据提取或质量制造的车辆获取汇总数据LES执行封闭数据回路;当体现的情报考虑特定的数据模式时,培训数据,培训后数据和强化培训数据。 这是体现智能数据的“数据金字塔”:基础层希望使用大量的互联网数据,而本质是使该模型对物理世界有了重大了解;上层期望对现实世界数据进行微调,以允许具体的算法在特定的应用程序情况下实现。真实数据的优点是名称建议,但是该集合的成本很高,效率很低。我们不仅可以解决Manu -Emote操作的问题,而且我们还应该错过的是建立场景并获得本体或劳动的问题,因此收集真实数据的成本很高。 中层是合成数据。这样的优点是理论上,只要有足够的GPU计算能力,它就可以提供无限的数据量。 becausE合成数据是在模拟环境中生成的,概括的能力更强。因此,综合数据可能无法提供足够的数据,而是提供很高的一般数据。但是,合成数据也存在问题,并且有模拟和现实世界的“ domaingap”。因此,如果我们可以通过技术手段继续减少合成数据的“ domaingap”,我们可以增强体现智能的发展。我认为“ sim2real”不是0或1的问题,而是通过技术手段持续勤奋差异的问题。 第二个理解是,我们认为没有用于合成数据的“永久运动机”,而AGI开发需要人类显示数据。 可以将其与大型语言模型和自主驾驶进行比较:大型语言模型(例如GPT)的训练阶段中的许多RLHF数据。这些数据提供商是OpenAI从各个行业发现的专家(例如数学博士学位,博士IN物理学和医生)。他们提供了高质量的语料库,以进一步提高大型模型的性能;在自主驾驶领域,端到端出现后需要“五星级驾驶员”的高质量驾驶数据,以提高自主驱动算法的人道主义能力。因此,我们受到了最糟糕的模型语言和自主驾驶的启发:它们的开发需要“圈”中的高质量数据。我们认为,体现的智能是相同的,包括上述远程操作数据收集。无论是在现实世界中收集还是模拟,都需要一个人展示环境很重要。例如,我们将展示如何教授具体的衣服,搅拌菜或执行特定任务。这些数据实际上来自人类的示威。 通常,我们认为具有体现智能的合成数据需要高质量的“戒指中的人”,伴随着模拟Enviro的能力并提供更多的一般数据,以增强人类操作数据的价值。 接下来,让我们介绍我们的工作。我们的公司被称为广泛的智能,在模拟技术和现场的赌博场景中驱动,提供视觉和物理世界的质量合成数据的企业“戒指中的人们”希望通过合成数据来提高向物理世界展示人们的成本。该公司于2023年2月成立,是我们愿景成为Scaleai在体现领域的愿景的开始。 我们当前的产品表格包括:高质量的3D属性:这是用于收集仿真数据的原材料,包括属性,一般情况等。遥控器链链:适用于各种硬件,远程控制链接打开对模拟打开。加强研究平台:在训练阶段将使用具体的智能。采用研究需要计算GPU对E的力量Xchange数据,因此需要大型模拟。我们提供一个加强研究平台,我们还将利用强化教育来证明情况和财产。目前,我们的客户包括国内和外国顶级智能公司,一些OEM和领先的大学。 这是产品演示的快速演示: 第一种情况是冰箱的冰箱。在模拟中,看起来真实的冰箱很常见,而我们制作的冰箱在视觉,互动,物理和机械评论方面已经足够现实。我们可以在身体上表现出来。例如,在左侧的示例中,打开冰箱门的角度不同,评论力是不同的。这些力的大小是根据真正的冰箱收集的;右演示中的冰箱抽屉阻尼力的反馈。他们可以帮助您获得收集数据信息信息的明智信息。 第二个演示是农业场景的示例是从客户的实际需求中得出的:高质量,可推广的草莓(支持大小,颜色和各种成熟阶段的概括),并且需要使用场景进行培训,以进行增强研究,因此可以进行这些草莓以进行机器人手臂的研究。我们不仅优化了视觉水平,而且还以物理和交互式水平开发。 在属性存在之后,下一步是开发一个与现实世界应用场景相关联的场景。例如,为了满足客户需求,我们将制造诸如厨房,超市,行业,毒品(例如内部人体器官)之类的场景资产。 如前所述,模拟可以是一般的。我们不仅可以调节属性和照明的类型,还可以调节布局级别。例如,在超市的情况下,属性本身和位置通常是拥有它可以独立进行物理互动。 在这种情况下,可以在环境模拟中收集远程数据提取。由于各种机器人和数据要求,我们适应了不同的遥控器机构,包括基于VR,机器人ARM和4D鼠标的遥控方法。同时,基于VR的远程锻炼存在问题:VR玻璃盖将导致远程锻炼设备看不到手指,从而影响远处锻炼的精度。我们通过优化算法来解决此问题 - 使用多个摄像机收集数据以使明智之举的估计更加准确。在左侧的示例中,Apple很难通过远程操作捕获,并且在算法优化之后,远程操作员可以轻松获取Apple进行数据收集。 最后,我们共享一个案例:我们收集有关模拟的数据,即微调NVIDIA的主要GR00TN1模型,并将效果对真实机器产生。在t他左是模拟的人工环境,远程数据收集和整体模拟环境中收集的合成数据;右边是使用Yushu的H1上的合成数据应用GR00TN1微调部署并将其降落在工厂场景中。 此外,Ginwe的工具和财产也略有贡献了开放的社区资源,包括上面提到的方案和铰链资产,以及我们的开放质量的高质量厨房情况,还包括基于拥抱面的Lerobot机器人。它收集了有关模拟的数据,机器人的手臂很好,最终实现了机器的真实扩展,还包括相关的插件,用于转换模拟资产格式。 如果您对合成数据感兴趣,请与我们联系以进行进一步的交流与合作。谢谢! 金融的官方帐户 24小时广播滚动最新财务aND视频信息,并扫描QR码,以便更多的粉丝遵循(Sinafinance)
分享到