登录社区云,与社区用户共同成长
邀请您加入社区
随着大语言模型技术的快速发展,人工智能交互正在从纯文本对话向多模态、具身化方向演进。今天,魔珐科技(XMOV) 携手 魔搭社区(ModelScope),在创空间正式上线了 「魔珐星云智能客服 Demo」!这是一个基于超写实3D数字人技术的具身智能交互平台。该平台实现了AI从"语言理解"到"具身表达"的能力升级,用户无需复杂部署,即可通过网页体验集视觉形象、智
今天,智谱送给开源社区以及 GLM Coding Plan 用户,人手一台“AI手机”。 现在,只需在 Claude Code 里输入一句提示词,AI 就会自动为你装好 AutoGLM,然后,你就有了—台“AI手机”。 智谱 Agent 模型 AutoGLM 开源后,受到开发者喜爱,对于这样一个开源“新物种”,部署过程确实有点麻烦。在不断尝试寻找更简单的解决方案后,惊喜地发现,这些工作完全可以交给
智谱正式发布并开源了GLM-ASR系列语音识别模型,并推出基于该系列模型打造的桌面端智谱AI输入法。 本次发布模型与产品包括: GLM-ASR-2512:全球领先的云端语音识别模型;GLM-ASR-Nano-2512:参数量仅1.5B的开源SOTA端侧语音模型;智谱AI输入法:将语音识别与大模型深度融合的桌面端效率工具。 实现让用户真正做到“动动嘴,活就干了”,从“把话变成字”走向“直接用语音
现有人像动画的主流Reference-to-Video范式因忽视时空错位,常导致身份漂移与视觉伪影。针对这一痛点,南京大学、腾讯PCG、上海人工智能实验室联合推出并开源SteadyDancer,这是首个基于Image-to-Video范式并稳健实现首帧保留的框架。通过引入条件协调机制、协同姿态调制模块及分阶段解耦目标训练流程,该模型成功攻克了外观保真度与运动控制难以兼得的难题,在显著降低训练资源消
今日,智谱新模型开源发布—— GLM-4.6V 系列多模态大模型,共包含两款模型: GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。 模型合集: https://www.modelscope.cn/collections/GLM-46V-37fabc27818446 作为 GLM 系列在多模态方向
在AI绘画领域,模型的理解力与表现力一直是研发的核心,效果好的模型参数大,参数小的模型效果差一直是困扰二次元AI模型爱好者的难题。在文生图领域,基于Transformer的DiT架构正逐渐成为主流。 近日,社区开源模型研究团队NewBieAI-Lab公开了其首个实验性文生图模型——NewBie image Exp0.1,一个专为二次元而生的3.5B 参数 Next-DiT 底模。除了扎实的底
在具身智能迈向真实世界应用的关键阶段,大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈:一方面,双臂操作作为最贴近人类行为的“刚需”形态,正成为行业主流趋势,但受限于高昂的采集成本与复杂的标注难度,相关数据极度稀缺;另一方面,现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题,且大多仅适配特定或有限种类的机器人本体与构型,缺乏跨平台、跨本体的通用性。 为破解
ModelScope 联合呜哩WULI团队重磅开源 Flowra —— FlowBench 背后的核心引擎! Flowra 是 FlowBench 的核心图执行引擎和节点包开发工具。它为开发者提供了一套完整的工具链,用于创建、测试、调试和发布自定义节点包。借助 Flowra,您可以轻松封装机器学习模型、图像处理算法。 开源地址: Github: https://github.com/model
阶跃星辰重磅开源 GELab-Zero ,首次将 GUI Agent 模型与完整配套基建同步开放,支持手搓党一键部署。其中 4B GUI Agent 模型在手机端、电脑端等多个 GUI 榜单上全面刷新同尺寸模型性能纪录,取得 SOTA 成绩。此外,阶跃此次还开源了基于真实业务场景的自建评测标准 AndroidDaily,以期推动 GUI 领域模型评测向消费级、规模化应用发展。 开源链接 GitHu
两个月前,我们发布了实验性的 DeepSeek-V3.2-Exp,并收到了众多热心用户反馈的对比测试结果。目前未发现 V3.2-Exp 在任何特定场景中显著差于 V3.1-Terminus,这验证了 DSA 稀疏注意力机制的有效性。也感谢广大用户一直以来的积极反馈与支持,为我们的持续创新注入了更多信心与动力。 今天,我们同时发布两个正式版模型: DeepSeek-V3.2 和 DeepSeek-