- 博客(51)
- 收藏
- 关注
原创 Manus出道即塌房,国产之光还是资本泡沫?
最近,国内 AI 圈被一款名为 Manus AI 的产品刷屏了。这款号称全球首款通用 Agent 的产品,被一些自媒体捧为 “国产 AI 之光”,甚至喊出了 “今夜这一片星空属于 China”“2025,东方破晓” 这样的口号。在这场引发科技圈地震的“Manus事件”中,我们目睹了中国AI创业生态的狂欢与撕裂,也窥见了技术创新与资本游戏交织的复杂图景。这场由一款AI代理产品引发的舆论海啸,既是技术理想主义的闪光,亦是商业丛林法则的缩影。
2025-03-25 20:00:38
854
原创 12款Manus开源平替项目全解析:从网页自动化到科研AI,一文掌握Agent新生态
本文深度盘点 12 个免费开源的 Manus 替代项目,涵盖 Browser-Use、TEN Agent 等明星工具,提供网页自动化、多模态交互、科研辅助等解决方案。这些项目支持本地部署、低代码开发,在端侧性能和垂直领域适配性上超越 Manus
2025-03-25 19:54:14
983
原创 快速免费SEO外链建设方法:利用MeoAI提交AI工具
MeoAI是一个全球性的AI工具导航网站,它汇集了超过17000个不同类型的AI工具,包括AI办公、AI图像、AI视频、AI音频、AI设计、AI写作等。这个平台不仅为用户提供了一个发现和使用AI工具的便捷途径,还为AI工具开发者提供了一个展示和推广自己工具的机会。全面的AI工具集合:收录国内外各类AI工具,满足不同用户的需求。每日更新:确保用户能够获取到最新的AI工具信息。免费提交:允许用户免费提交自己的AI工具,增加曝光机会。高质量外链。
2025-02-10 14:38:19
546
原创 OpenScholar:科研领域的革命性开源神器,4500万论文检索增强生成靠谱回答
该系统利用大规模的科学论文数据库,通过定制的检索器和重排器,以及一个优化的8B参数语言模型,生成基于实际文献的、准确的回答。: 在专家评审中,51%的情况下,专家更倾向于OpenScholar-8B的回答,而OpenScholar结合GPT-4o的版本更是达到了70%的偏好率,远超GPT-4o的32%。相比之下,GPT-4o在78%–90%的情况下会生成虚假的引用。OpenScholar的性能结果在多个方面展现出了显著的优势,这些结果不仅证明了其技术的实力,也显示了其在科学研究中的潜在应用价值。
2024-12-07 18:31:25
819
原创 黑森林实验室发布FLUX.1 Tools控制套件,全面介绍
FLUX.1 Tools 是由 Black Forest Labs 发布的一套模型工具,旨在为文本到图像模型 FLUX.1 提供更多的控制和可操作性,使得对真实和生成图像的修改和重新创作成为可能。这套工具包括四个核心功能:FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny 和 FLUX.1 Redux,它们能够实现从图像修复、扩展到结构引导和图像变化的多种编辑任务。FLUX.1 Tools 提供了不同版本的模型,以满足不同的需求和预算。来了解更多关于 API 的定价信息。
2024-12-07 18:24:05
799
原创 JoyVASA介绍:京东健康与浙江大学联合研发的先进音频驱动面部动画技术
JoyVASA的推理流程如下:给定一张参考图像,我们首先使用LivePortrait中的外观编码器提取3D面部外观特征,并使用运动编码器提取一系列学习到的3D关键点。使用参考图像的3D关键点和采样的目标运动序列,计算目标关键点。它特别关注于提高视频质量和唇形同步的准确性,并且能够处理更复杂的模型所带来的训练和推理效率问题,以及视频长度和帧间连续性的限制。音频驱动运动序列生成的训练过程如下:首先使用冻结的wav2vec2和Liveportrait中的冻结运动编码器提取音频特征和真实运动序列。
2024-12-04 20:25:45
1205
原创 Pixtral Large开源:Mistral AI的1240亿参数多模态模型超越GPT-4o等竞争对手
综上所述,Pixtral Large在多模态基准测试中的表现证明了其在理解和推理视觉数据方面的前沿性能,无论是在数学问题解决、图表理解还是文档分析等任务中,都展现出了卓越的能力。这使得模型在处理长篇文档、连续的图像序列或需要广泛上下文信息的任务时,能够保持信息的连贯性和准确性,尤其适合于长篇内容的总结、分析和创作。在众多基准测试中,Pixtral Large展现了卓越的性能,超越了包括GPT-4o、Gemini-1.5Pro、Claude-3.5Sonnet以及Llama-3.290B在内的多个模型。
2024-12-04 17:12:55
1779
原创 AlphaFold 3开源,谷歌DeepMind诺奖AI项目,革新蛋白质结构预测,加速新药和疫苗研发
该平台提供了网络服务,无需代码,通过上传数据即可完成包含蛋白质、DNA、RNA、配体、离子的高精度生物分子结构预测。AlphaFold 3 是由 DeepMind 开发的一款人工智能(AI)软件,它能够以前所未有的精确度预测几乎所有生命大分子(蛋白质、DNA、RNA、配体等)的结构和相互作用。这些技术原理共同作用,使得 AlphaFold 3 能够以原子精度预测蛋白质、核酸、小分子、离子及修饰残基等生物分子的三维结构,对药物设计、科研和生物医学领域具有重大影响。
2024-11-19 20:01:19
1489
原创 长文解读:OSAID 1.0,全球首个开源AI标准,审视探讨其对AI行业实践开源的影响
OSAID 1.0定义了什么是真正的“开源AI”。它不仅关注代码的开放性,还涵盖了AI模型和使用的数据。这一标准的核心原则包括自由使用、自由研究、自由修改和自由分享,这些都是开源精神的基石。OSAID 1.0的目标是确保AI技术的发展不受限制,同时保护用户和开发者的权益,促进全球范围内的合作与创新。
2024-11-19 19:57:03
1092
原创 谷歌新作:Unbounded开放世界RPG,AI定义无限游戏新纪元
这款游戏的设计理念源自James P. Carse的著作《有限与无限的游戏》,其中提出了有限游戏和无限游戏的概念。在Unbounded中,所有的游戏机制都是通过大型语言模型(LLM)动态生成的,这些机制包括游戏环境、角色互动、故事线等,它们都是实时生成的,为玩家提供了一个不断变化和发展的游戏世界。玩家可以将自己的角色插入游戏,定义角色的外观和个性。综上所述,MeoAI觉得Unbounded游戏在实验中展现了其在角色和环境一致性、实时交互以及视觉生成方面的先进技术,为玩家提供了一个无限、开放的游戏世界。
2024-11-15 16:38:07
987
原创 DreamClear:字节跳动开源了高性能图像修复技术,中科院加持,商业免费使用
DreamClear 的“自适应调制器混合”模块(MoAM)可以动态适配多个图像恢复模型,使其适应不同的图像劣化类型,并进一步扩展了模型的适用性。这项技术主要面向图像质量提升和细节恢复等应用场景,通过利用先进的深度学习模型,将低质量(LQ)图像恢复为高质量(HQ)图像,具有优秀的性能表现。哇,字节跳动开源了DreamClear项目,采用的是Apache-2.0开源协议,可以商用,并且用户可以自由地使用、复制、修改和分发该软件,甚至可以用于私有项目中。用户可以自由下载和使用其代码,无需支付任何费用。
2024-11-15 16:29:40
1257
原创 MarDini:Meta与KAUST合作的AI视频插帧技术,树立视频生成新标杆
Mardini 通过其先进的视频生成技术,能够适应各种复杂的条件,处理任意数量的遮蔽帧,并在视频序列中的任何位置进行操作。这一能力使得单一模型便能够执行多种任务,如填补视频中间的空白帧(视频插值)、将静态图像转化为动态视频(图像到视频的生成)、以及扩展视频内容(遮蔽一半的帧)。并且,它能够在较少的推理步骤中,高效地产出与那些成本更高的高级图像到视频模型相匹敌的视频内容。它通过将掩码自回归(MAR)的优势整合到统一的扩散模型(DM)框架中,实现了视频插值、图像到视频的转换以及视频扩展等多种视频生成任务。
2024-11-14 20:17:08
1672
原创 智谱 GLM-4-Voice模型:感受你的情绪,上线即开源,畅享情感语音AI通话的魅力
与传统的语音识别(ASR)+大语言模型(LLM)+语音合成(TTS)的级联方案不同,GLM-4-Voice采用了端到端的建模方式,以离散token的形式表示音频,在一个模型中同时完成语音的理解和生成,避免了中间过程中的信息损失和误差积累。GLM-4-Voice模型通过端到端建模的方式,直接将输入的语音映射到输出的语音,省去了中间的文本转换步骤。这些技术的结合,使得GLM-4-Voice模型不仅能够理解语音中的语义内容,还能够捕捉和表达语音中的情感和语调,从而提供更加自然和富有情感的语音交互体验。
2024-11-14 11:27:44
2233
原创 HuggingChat macOS:一键体验顶尖开源大模型,huggingface发布Mac用户首选的开源AI聊天应用
HuggingChat macOS 是 Hugging Face 专为 macOS 用户设计的开源聊天应用程序,它基于强大的开源语言模型,将先进的 AI 对话能力直接带到用户的桌面上。HuggingChat macOS 是 HuggingChat 的一个特定版本,专门为 macOS 操作系统设计。总的来说,HuggingChat macOS 是 HuggingChat 服务在 macOS 平台上的特定实现,它继承了 HuggingChat 的核心功能,同时为 macOS 用户提供了更优化的体验。
2024-11-06 11:37:17
840
原创 最新,国产大模型又翻车了,不会统计字数,但ChatGPT依旧正确。
国产LLM如豆包、Kimi、元宝、百度文心在计算文本字符数量的任务上出现了失误,而ChatGPT则能够准确无误地完成这一任务。:与国产LLM形成鲜明对比的是,ChatGPT在计算文本字符数量的任务上表现出了极高的准确性。最新,国产LLM和ChatGPT在字符统计任务上的表现差异,
2024-11-06 11:34:37
615
原创 Google推出MusicFX DJ,用AI实时混合文本提示生成独特音乐
受到雅各布对创意合作的关注的启发,无论是与其他艺术家还是与他的观众,团队希望使分享和互动使用MusicFX DJ制作的音乐变得更加容易。同时,还宣布了音乐AI工具包Music AI Sandbox的更新,并在YouTube的Dream Track中展示了最新的AI音乐技术,这为创作者提供了生成高质量器乐的实验性功能。在今年的I/O大会上,MusicFX DJ的早期预览展示给公众,这是一个数字工具,任何人都可以像演奏乐器一样使用,使现场音乐创作的快乐更容易为所有技能水平的人所接触。
2024-11-04 19:55:15
1096
原创 揭秘OpenAI推出革命性sCM模型,0.1秒内出图?50倍速AI图像生成
与传统的扩散模型相比,sCM在生成高质量样本方面更加高效,速度。随着sCM模型规模的扩大,样本质量的差距进一步缩小,这一模型的成功还得益于其能够随着从中提炼知识的教师传播模型按比例扩展,使得采样步骤数的增加会进一步缩小质量差异。OpenAI在连续时间一致性模型领域的最新突破,sCM模型,不仅继承了之前研究的精髓,更通过吸取EDM和流匹配模型的优点,实现了重大的技术飞跃。通过这些技术改进,sCM模型不仅在理论上更加简洁,而且在实际应用中也展现出了更高的效率和稳定性,为生成模型的发展提供了新的方向。
2024-11-04 16:07:17
969
原创 Genmo的Mochi 1模型,最强开源AI视频生成模型,100亿参数视频革命
Genmo 的团队由数据科学家、软件工程师、AI 研究员和视觉艺术家组成,他们利用大数据和先进的深度学习技术训练 AI 模型,以便自动执行视频内容的创建和编辑任务。公司的使命是解锁通用人工智能的右脑,Mochi 1 是他们推出的开源视频生成模型,是构建可以想象一切事物的世界模拟器的第一步。Genmo 的产品主要搭建在 Discord 上,是一个以社区为中心的视频生成应用,Genmo 还采取了基于使用量的定价策略,向用户收取每月 10 美元的费用,提供更多生成次数、优先访问新模型的权限和无水印的服务。
2024-11-03 18:52:54
996
原创 【4K图像·秒级生成】SANA模型:NVIDIA、MIT、清华联手打造革新性AI图像技术
SANA 作为 NVIDIA、MIT 和清华大学联合开发的高效生图模型,凭借其高效的图像生成能力和强大的文本理解能力,为各类用户提供了一个强大的工具。无论是内容创作、游戏开发、广告营销,还是教育研究和媒体娱乐,SANA 都能以低成本、高效率地生成高质量的图像,极大地提升了工作效率和创作体验。
2024-11-01 10:21:01
1245
原创 OpenAI ChatGPT search正式上线,和谷歌、perplexity对垒最强AI加持搜索什么样?
将覆盖网页版和所有客户端平台,并已向ChatGPT Plus和Team订阅用户开放。新的搜索模型是基于GPT-4o微调而成的,它直接与OpenAI的数据合作伙伴接口相连。未来,ChatGPT还计划增加购物和旅行规划等搜索功能,并且对于免费用户来说,这些新功能也将在接下来的几个月内逐步推出。刚刚,ChatGPT 能够根据提示词自动进行搜索,或者用户也可以手动触发搜索,以获取天气、股票、体育、新闻和地图等信息,使得用户界面更加直观易用。
2024-11-01 10:12:22
473
原创 起猛了?AI开始玩4D了?啥是Tex4D:4D纹理技术啊?
Tex4D是一种革命性的4D纹理生成方法,利用视频扩散模型为动态3D模型生成逼真且时间一致的纹理。它结合3D几何知识,提供多视图一致性和动态背景生成,适用于电影、游戏和虚拟现实等领域,极大地简化了3D建模和动画制作中的纹理生成过程。
2024-10-30 21:35:36
1062
原创 开源的GPT-4o模型使用指南,Mini-Omni2集视觉、语音和双工能力于一体的
探索Mini-Omni2,一款集视觉、语音和文本处理于一身的先进开源多模态语言模型。它不仅支持实时语音交互,还具备创新的命令中断机制,为用户提供前所未有的流畅体验。立即了解这款模型的强大功能和广泛应用场景。
2024-10-30 16:05:01
2392
原创 Project Turntable刷爆朋友,2D矢量图可旋转出3D效果,在2024 Adobe MAX上鲨疯了!
2024 Adobe MAX盛会上,Project Turntable的震撼亮相让设计界“鲨疯了”,其革命性的AI设计工具和3D设计创新让创意工作者纷纷刷屏。这款工具以其无与伦比的设计效率和创造力,预示着设计行业的新突破。
2024-10-29 20:11:07
1213
原创 OpenAI推出GPT-4o-Audio-Preview,好牛掰,专注于语音处理,分析
探索GPT-4o-Audio-Preview,OpenAI的最新多模态AI模型,它通过结合文本、音频和图像输入,彻底改变了语音助手和虚拟客服的互动方式。了解其先进的情感分析、快速响应和多语言支持功能,以及如何在你的业务中利用这项技术
2024-10-29 16:40:02
2104
原创 NVIDIA发布Nemotron-70B-Instruct,超越GPT-4o和Claude 3.5的AI模型
2024 年 10 月 16 日发布的 Nemotron - 70B - Instruct 是 NVIDIA 开发的先进大语言模型。它采用 NAS 方法和知识蒸馏技术,在多个基准测试中排名第一。具有高准确性与效率等功能特色,支持多种微架构和操作系统。虽定价未公开,但有免费托管推理服务。适用于企业应用等多种场景。
2024-10-25 09:35:56
1702
原创 超越OpenAI GPT-4o,Yi-Lightning指南:中国AI大模型新巅峰
掌握Yi-Lightning,中国首款超越GPT-4o的先进AI模型。深入了解其在LMSYS榜单上的卓越表现,以及如何通过Yi大模型开放平台轻松集成和应用。本文教程将指导你探索Yi-Lightning的强大功能,提升你的项目效率和智能水平
2024-10-24 15:49:12
1461
原创 苹果发布MM1.5:特性大起底,多项性能领先,革新多模态大模型,引领图像视频理解与移动UI
苹果公司最新推出的MM1.5多模态大模型,在文本丰富的图像理解、视觉指代和定位以及多图像推理方面取得显著进展。MM1.5不仅优化了视频和移动UI理解能力,还在多个基准测试中展现了卓越的综合性能,
2024-10-24 12:16:26
1182
原创 Pyramidal Flow使用指南:快手、北大、北邮,开源可免费商用视频生成模型,快速上手教程
本指南详细介绍了 Pyramidal Flow 的安装、配置、使用方法,以及如何利用这一模型将文本描述转化为高质量视频。Pyramidal Flow 由快手科技、北京大学和北京邮电大学联合推出,支持商业使用,具备文本到视频生成、高分辨率输出、自回归视频生成等功能。
2024-10-22 19:30:32
2227
原创 OpenR框架深度解读 - OpenAI启发的首个开源项目提升大型语言模型推理能力
深入剖析OpenR框架,这一由OpenAI启发而生的开源项目,如何革新大型语言模型(LLMs)的复杂推理能力。本文详细解读OpenR的关键特性和技术实现,包括过程监督数据发布、在线强化学习训练、生成式和判别式PRM训练
2024-10-22 11:34:38
2187
原创 性能评测第一,阿里开源可商用AI模型Ovis 1.6使用指南,AI多模态大模型首选
阿里开源AI模型Ovis 1.6:商用友好,性能评测冠军。本文是Ovis 1.6 Gemma 2 9B的使用指南,详述了如何安装、配置和运用这一多模态大模型,适用于数学问答、图像识别等任务。开源且支持商用,是AI开发者的首选。
2024-10-18 20:10:47
1371
原创 FLUX.1.1 Pro携手BFL API:黑森林实验室重磅更新,六倍速度图像生成,赋能小至大型项目
Black Forest Labs的FLUX.1.1 Pro模型以其前所未有的图像生成速度和质量,为创意产业带来革命性变革。这款AI模型不仅提升了六倍的生成速度,更在图像质量和多样性上实现巨大飞跃。现在,通过BFL API,用户和开发者可以轻松集成这一尖端技术,将文本描述转化为逼真的图像。
2024-10-16 19:33:14
1694
原创 字节跳动发布GR-2:一文读懂AI机器人的最新突破
探索字节跳动的最新力作——GR-2机器人,这款第二代机器人大模型以其创新的学习方式和卓越的性能,正在引领智能机器人技术的新时代。GR-2通过模仿人类成长过程,利用互联网视频进行预训练,掌握了人类日常行为模式,展现出97.7%的多任务学习能力。
2024-10-16 09:31:34
1628
原创 豆包PixelDance指南:字节跳动推出的AI视频生成大模型,突破多主体互动难关
豆包PixelDance是由字节跳动推出的一款AI视频生成大模型,它基于DiT架构设计,能够实现多风格和多比例的一致性多镜头生成。PixelDance代表了视频生成技术的新突破,支持多主体间的复杂交互和动作指令,具备强大的动态效果和丰富的运镜能力。
2024-10-11 21:33:14
1534
原创 Emu3:北京智源推出AI多模态世界模型,超越DeepMind和微软,刷新了8项性能指标
Emu3是由北京智源人工智能研究院推出的革命性多模态AI模型,它采用自回归技术路径,能够统一处理图像、视频和文本数据。Emu3通过将内容转换为离散符号,并使用单一的Transformer模型预测下一个符号,简化了模型架构。它在图像生成、视频生成、视频预测和图文理解等多个方面展现出色性能,超越了多个领域的专用模型。
2024-10-11 10:40:51
1223
原创 Meta Movie Gen,赶超Sora,AI视频开启300亿参数的沉浸式叙事时代
Meta Movie Gen是Meta公司推出的一款基于人工智能的视频和音频生成模型,它利用Transformer架构和大规模参数化模型,能够通过文本描述生成视频,编辑现有视频,以及将个人图像转化为视频。这项技术结合了图像、视频和音频模态,使用户能够通过简单的文本输入来创作视频内容。
2024-10-08 20:09:33
1276
原创 超越GPT-4的视觉与文本理解能力,开源多模态模型领跑者 - Molmo
Molmo AI介绍及如何使用的指南,是由艾伦人工智能研究所推出的一系列先进多模态模型,提供图像理解和文本分析的卓越能力。这些开源模型不仅在性能上超越了GPT-4等商业模型,还通过创新的数据收集方法实现了更准确的图像描述生成。
2024-10-08 20:02:44
958
原创 ComfyUI+Krea免费利用AI制作网站萌宠IP,五步搞定制作AI萌宠
Meo喵,一只融合了力量与智慧的猫咪AI工具专家,以其独特的3D风格和精致的设计细节,成为AI艺术创作领域的新星。本文详细介绍了Meo喵形象的创作过程,从初步草图到最终的高清成品,每一步都体现了AI技术与创意设计的完美结合。通过使用先进的AI工具和软件,Meo喵的形象不仅展现了艺术的多样性,也展示了AI在创意产业中的无限潜力。
2024-09-07 12:52:19
1824
1
原创 AI艺术创作福利:免费领取红包封面,Meo喵、龙小金与你共庆佳节!
庆祝佳节,我们网站利用AI工具Midjourney、ComfyUI特别推出1588个独家设计的微信红包封面,免费领取!这些红包封面由AI艺术创作和专业设计团队精心打造,融合了龙小金的吉祥寓意和Meo喵的可爱形象,为你的节日祝福增添独特魅力。每个用户限领一个,先到先得。
2024-09-06 11:58:35
598
翻译 2024上半年全球AI应用Top100排行榜,揭示AI应用新趋势
深入分析了AI应用市场的最新动态。报告显示,创意工具领域以52%的占比成为网络榜单的领头羊,尤其是音乐和视频生成工具的崛起引人注目。移动设备上,图像和视频编辑应用占据22%的市场份额,显示出消费者对移动创意工具的强烈需求。此外,AI助手如ChatGPT和Perplexity在网络和移动平台上的持续流行
2024-08-22 19:56:51
1169
原创 多模态学习Multimodal Learning:人工智能中的多模态原理与技术介绍初步了解
多模态学习指的是通过同时利用多种模态的数据进行学习和推理的过程。例如,在图像分类任务中,除了使用图像数据,还可以结合文本描述,以提升分类准确性。多模态学习的目标是利用不同模态的信息,提高模型的泛化能力和表现。模态(Modality)是指信息或数据的不同表现形式。文本(Text):自然语言文本,如文章、评论、对话等。图像(Image):静态图片,如照片、图画等。音频(Audio):声音信号,如语音、音乐等。视频(Video):动态影像,如电影、视频剪辑等。
2024-08-20 18:02:23
2019
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人