普通网友-CSDN博客

原创我的HTTP学习之路：一个开发者的亲身经历

作为一名软件开发者，HTTP协议无疑是我日常工作中最常接触也是最不可或缺的基础之一。然而，回想起最初接触HTTP的经历，那时候的我对它的了解仅限于“它是用来传输数据的”，之后的深入学习却让我对这个协议有了全新的认识和敬意。今天，我想分享一下自己是如何逐步理解和掌握HTTP协议的过程。

2024-10-14 00:31:19 575

原创 Meta AI 发布 Llama 3.2 多模态AI模型性能与GPT4o-mini 相当能够在边缘设备上高效运行

Meta AI 发布 Llama 3.2多模态AI模型，旨在提供强大的自然语言处理和图像理解能力。其设计目标是提高AI在边缘计算和移动设备上的性能，Llama 3.2包括适用于边缘和移动设备的小型和中型视觉大语言模型（11B 和 90B）以及轻量文本模型（1B 和 3B）。Llama 3.2 系列中最大的两个模型，11B 和 90B，支持图像推理用例，如文档级理解，包括图表和图形的理解、图像说明以及基于自然语言描述的视觉定位任务。

2024-10-13 21:10:23 1127

原创 Prompt 框架思维

该框架主要包括以下五个部分：背景 B (Background)角色 R (Role)目标 O (Objectives)关键结果 K (Key Results)实验改进 E (Evolve)

2024-10-13 21:09:24 508

原创【Concept Sliders】通过拖到滑块来精确控制特定图像特征

Concept Sliders 是一种用于，允许用户在图像生成过程中对特定概念进行。与依赖提示词生成图像的传统方法不同，Concept Sliders 通过引入可调整的“滑块”，用户可以在保持图像整体结构不变的情况下，调节某些特定属性（如眼睛大小、光照强度、风格等）的强度，从而实现更高精度的图像生成和编辑，而无需反复修改提示词。

2024-10-12 08:30:00 1622

原创 Claude新功能函数调用工具 Tool use 允许模型与外部系统进行交互

名称（name）：工具的唯一标识符。描述（description）：详细说明工具的功能、使用场景和行为方式。输入模式（input_schema）：定义工具期望接收的参数，使用JSON Schema格式。

2024-10-11 09:00:00 1347

原创阿里云的Qwen2.5-Coder 和 Qwen2.5-Math专有模型怎么样？

阿里云发布和。新的模型在指令跟随、生成长文本（超过 8K Tokens）、理解结构化数据（如表格）以及生成结构化输出（尤其是 JSON 格式）方面取得了显著进步。Qwen2.5 模型更能适应不同的系统提示，提升了角色扮演和条件设定的能力。与 Qwen2 类似，Qwen2.5 支持Tokens，最大可生成Tokens，且支持种语言，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。来自不同基准的指令调优版本的全面结果，评估了模型能力和人类偏好。继。

2024-10-10 08:30:00 3241

原创 Anthropic Message Batches API 满足批量处理大量请求

现在开发的系统有大量知识汇总统计、跑批处理需求的同学这个尝试一下，看看能不能解决自己目前的问题~~Anthropic 推出的，专门用于帮助开发者批量处理大量请求。它的主要目的是通过一次性处理大量非实时任务，节省时间和降低成本。简单来说，它适合那些不需要即时响应的任务，特别是需要处理大量数据的场景。

2024-10-10 08:00:00 701

原创 Deepgram AI语音代理API ,支持实时语音对话

Deepgram推出了全新的，这是一个统一的语音对话API，旨在让AI代理能够进行自然的对话。该API依赖于快速的语音识别和语音合成模型，支持实时的语音理解、推理和对话生成。适用于企业和开发人员，能够创建强大的语音代理，特别适用于客户支持、订单处理等场景。

2024-10-09 08:15:00 524

原创 FLUX.1-dev-LoRA：一个混合现实与插画风格模型可以生成融合了现实与插画元素的图像

FLUX.1-dev-LoRA是一个混合现实与插画风格模型。该模型可以生成融合了现实与插画元素的图像。它基于FLUX.1-dev基础模型进行训练，特别擅长生成前景角色为插画风格，而背景为现实风格的视觉效果。可以通过使用该模型生成图片并发布在社交平台上，如微信朋友圈或小红书，达到不露脸但仍然展示旅行场景的效果。嘿嘿..提示：卡通风格的男人/女人，穿什么衣服，在什么场景，做什么。结局可以补充：艺术风格融合现实与插画元素。增加现实与卡通的区别。如果不是著名景点场景，场景描述可以稍微详细一些。

2024-10-09 08:15:00 1219

原创【AIGC】OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型速度提高了8倍

OpenAI 宣布推出了一个名为 large-v3-turbo（简称 turbo）的新 Whisper 模型。这是 Whisper large-v3 的优化版本，将解码器层数从大型模型的 32 层减少到与 tiny 模型相同的 4 层。此优化版本的开发受到了 Distil-Whisper 的启发，后者表明使用较小的解码器可以显著提升转录速度，同时对准确性的影响较小。速度比 large-v3 快 8 倍，但质量几乎没有下降！

2024-10-08 08:00:00 1190 1

原创 OpenAI 推出全新 “Canvas” 工具的系统提示词泄露

bio 工具状态：已禁用。不要向它发送任何消息。记忆功能：如果用户明确要求你记住某些事情，请礼貌地引导他们前往设置个性化记忆，以启用记忆功能。

2024-10-08 07:45:00 2826

原创最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装）

Jupyter Notebook 启动后，我们导入所有库，然后获取模型，我们选择 Whisper 大型版本 3 Turbo，然后下载模型并将其放入我们的 CUDA 设备（即 GPU），接着我会初始化这个自动语音识别的管道，提供模型、分词器，并指定我们的 CUDA 设备。新推出的 Whisper Turbo 模型是 OpenAI 开发的，经过约 500 万小时的标记数据训练，具有出色的泛化能力。尽管近年来出现了许多音频和多模态模型，但Whisper 仍是生产级自动语音识别（ASR）的首选。

2024-10-07 10:00:00 976

原创【AI资讯】AI 学术搜索引擎 Consensus 完成 1150 万美元 A 轮融资年化收入达150万美元

它不仅能够提供主题级别的见解，还能深入分析单篇论文的内容，所有内容均与真实的研究论文相连。Consensus 是基于 AI 的学术搜索，使研究人员和学术从业者能够更快、更准确地找到相关研究论文。Consensus 使用自定义的语言模型分析整个研究论文库，从每篇论文中提取关键结论，并结合引文数量、研究设计、发表日期等元数据重新排名结果，以确保提供最相关的前20个结果。自2022年冬季上线以来，Consensus的月活跃用户已超过40万，并预计将在2024年实现了600%的增长，年化收入达到150万美元。

2024-10-07 09:00:00 472

原创【AIGC】Hugging Face 推出一站式搜索开源成果的平台：Paper Central

Hugging Face 推出一个全面、便捷的学术平台：Paper Central ，该平台可以帮助研究人员和开发者快速获取并使用开源资源。它将arXiv、Hugging Face 论文页、模型、数据集、Space、GitHub 和会议论文集等多个来源的开源学术资源整合在了一起。通过将这些来源聚合到一个地方，Paper Central 大大简化了查找研究成果的流程，用户无需逐个访问不同平台。用户可以通过该平台轻松搜索即可获取开源成果，大大简化了查找研究成果的流程，用户无需逐个访问不同平台。

2024-10-06 12:13:13 963

原创 Bolt.new：终极自动化编程工具

WebContainers 是一种运行在浏览器中的全栈 Node.js 环境，使用 WebAssembly 技术，不依赖远程服务器。它允许开发者在浏览器中创建和运行 Node.js 应用，并且能够在毫秒内启动这些环境，还可以通过链接分享应用。bolt․new 可以创建漂亮的、准备投入生产的多页应用，带有后端和数据库（如 Supabase），并且可以一键部署到生产环境。秘密就在于 WebContainers，它是我们的微型操作系统，可以在你的浏览器标签中运行完整的 web 开发环境。

2024-10-06 11:35:45 4570

原创【AIGC】GPT4o mini 比GPT3.5 turbo更强，ChatGPT这次要让它替代GPT3.5？

GPT4o mini相较于GPT3.5 turbo只支持文本输入的基础上，又增加了图片输入，也就意味着使用GPT4o mini可以进行读图了。左面是GPT4o mimi的回答，它的回答居然是正确的，看来官方对最新的模型还是做了一定优化的，至少在推理层面。7月18日，ChatGPT推出了新的模型GPT4o mini，作为GPT3.5 turbo的替代。那这个模型，都升级了哪些内容，和GPT3.5相比有多大提升，和GPT4o相比，又有多大的差距？拿最近很考验大模型智力的问题比大小看下。

2024-10-05 20:04:33 828

原创 AI图像生成模型-Imagen3

lmagen 3是Google推出的AI图像生成模型，可以生成高质量、逼真的图像。lmagen 3是Google最高质量的文本到图像模型，可生成细节丰富、照片级真实的图像。lmagen 3对提示词理解更好，可捕捉更多细节，生成更广泛的视觉风格。社交媒体用户可以利用lmagen 3来生成个性化的图像，用于个人表达或内容分享。广告商可以使用该技术来创建吸引人的广告图像，提高广告的吸引力和效果。用户输入描述性的文本，模型能够理解并转换成相应的图像。支持用户对生成的图像进行局部调整，提高灵活性。

2024-10-05 19:51:04 389

原创【AIGC】2024年，AI & ChatGPT会影响普通人吗？

衷心希望在2024年，AI能够帮助每一个普通人实现升职加薪，提升生活质量。通过积极学习和应用AI工具，我们可以在这一波技术浪潮中抓住机遇，迎接更加美好的未来。

2024-10-04 17:50:46 807

原创【AIGC】科普文：什么是Gemini，关于谷歌新的人工智能模型，你应该知道的一切

Gemini是谷歌推出的一款功能强大的新型人工智能模型。作为一个多模态模型，Gemini不仅能够理解和生成文本，还能处理图像、视频和音频内容。这使其在数学、物理等复杂领域的任务执行，以及各种编程语言的高质量代码理解和生成方面具备卓越能力。Gemini的核心特点包括：多模态处理：无缝理解和组合不同类型的信息（文本、代码、音频、图像、视频）。高效协作：由谷歌各团队大规模协作开发，从头构建，确保模型的综合性能。

2024-10-04 17:44:41 1912

原创 OpenAI 推出 SearchGPT - 它可以做什么以及如何访问？

OpenAI 推出了，开启了生成式 AI 时代，显著改变了人工智能（AI）市场。如今，OpenAI 再次迈出重要一步，力图撼动搜索引擎领域。

2024-10-03 20:27:17 878

原创如何使用ChatGPT，提示词篇之【编程代码】

通过以上提示词示例，用户可以更有效地与 ChatGPT 互动，充分发挥其在编程及其他领域的强大功能。根据具体需求调整提示词，有助于得到更精准和有用的回应。无论是学习、工作还是个人项目，善用 ChatGPT 都能极大提升效率和成果。

2024-10-03 20:20:16 733

原创 OpenAI - o1 模型，自带思维链，可以推理和自我反思

在阅读了 OpenAI 的出版物后，我对其本质特点进行了总结，并得出了以下结论：1.复杂问题的推理能力显著提升：OpenAI-o1 在处理复杂问题时表现出色，尤其在逻辑任务方面。2.定期更新和改进：通过不断的训练，模型学会完善自己的思维过程，尝试不同的策略，并识别和纠正自己的错误。3.高水平的学术挑战能力：在物理、化学和生物学等方面，OpenAI-o1 能够应对具有挑战性的基准任务，表现类似于博士生。4.数学和编程能力强：在国际数学奥林匹克（IMO）中取得了83%的成绩，显示出卓越的数学和编码能力。

2024-10-02 21:17:17 1165

原创检索增强生成（RAG）有什么好的优化方案？

RAG（检索增强生成）是一种结合了信息检索和内容生成的技术，常用于提升人工智能回答问题的准确性和相关性。本文将RAG的优化分为两个主要方向进行介绍：基础功能优化和架构优化。

2024-10-02 21:00:25 824

原创 OpenAI o1：使用限额提高，o1 模型解析

OpenAI 的研究显示，增加推理计算资源能够大幅提升模型在各项基准测试中的性能，这表明投入更多计算资源是值得的。此外，o1 在处理超长的推理链时表现出色，能够处理长达 10 万到 20 万个 tokens 的推理过程，这在过去的强化学习应用中是前所未有的。传统语言模型通常采用顺序生成并缓存输出步骤，而 o1 需要在推理过程中进行并行生成和评估，这对基础设施提出了更高要求，这也是导致o1推理成本高的原因之一。o1 的核心在于通过大规模的强化学习进行训练，使模型能够在复杂的推理任务中逐步改进其思维链。

2024-10-01 22:02:20 716

wxl01235的博客

原创还装藏不住的