- 博客(651)
- 资源 (43)
- 收藏
- 关注
原创 SQL进阶技巧:高效处理版本号排序与序号生成
字符串处理与类型转换 • 灵活使用substrsplit分解复杂字符串。• 通过CAST确保数值比较(避免字符串按字典序排序的错误)。窗口函数的高级用法 •解决并列排名问题,生成连续序号。• 结合可实现分组排序(如按产品线独立排名)。默认值处理 • 使用COALESCE或NVL填充缺失字段,避免NULL值干扰排序。动态调整序号起点 • 通过-1+1等操作调整序号范围,适应业务需求。
2025-04-29 08:30:00
818
原创 李荣浩vs某游戏公司:数仓建设中,如果用户表频繁更新,像事实表一样细长,怎么解决?
问题本质:维度表高频更新是模型设计未能匹配业务动态性的结果,需通过数据域重构解决。阿里经验提炼:坚持“维度静态化、状态事实化”原则,以离线批处理支撑动态属性的高效管理。关键结论高频更新属性必须事实化:避免维度表承担动态数据写入压力。离线批处理是核心手段:通过每日快照平衡存储与查询性能。最佳实践属性分类:设计阶段明确区分静态属性与动态属性。自动化运维:通过调度工具(如Airflow)管理快照生成任务。监控告警:跟踪事实表的数据增长速率和快照任务执行时长。
2025-04-28 16:10:03
44
原创 增量抽取的场景下,周期快照表最新分区的数据是如何生成?
数据表:用户账户余额表(更新频率:源系统每日通过增量方式推送变更(增、删、改)目标表:每日生成全量快照分区,记录当天最终账户状态查询需求:支持按分区快速查询历史任意日期的账户余额通过本文提出的全量覆盖与ACID事务两种方案,可在Hive环境下高效生成周期快照表。实际生产中需根据集群版本、数据规模、实时性要求综合选择策略。未来随着Hive 3.x的普及和Iceberg/Hudi等表格式的集成,事务型快照表的管理将更加便捷。建议在架构设计时预留扩展能力,逐步向实时数仓演进。附录。
2025-04-28 14:22:13
725
原创 面试提问:你设计的模型是通用的吗?如何量化?| 通用模型 vs 自定义模型
数据仓库建设本质是在不确定中寻找确定性的过程。建议技术团队:建立模型健康度看板:监控指标包括需求命中率、重构频率、存储成本/查询量比设计灰度升级机制:新模型先在5%流量验证,通过A/B测试对比效果培养"标准化优先"文化:强制要求所有定制开发必须证明其无法被现有模型覆盖最终,优秀的数仓架构师应像围棋高手:在标准定式与妙手偶得间找到最佳平衡点。
2025-04-27 09:00:00
31
原创 「数仓的哲与思」:一场数据工程的思维盛宴与实战精要
如《分主题预计算》案例所示:单个业务域的预计算优化是局部理性,但多主题的无限衍生将导致存储成本超线性增长——这恰似哈耶克“自发秩序”理论在数据架构中的映射。”(某案例中,将延迟从5分钟降至5秒,并未改变运营策略,反浪费百万资源)。:《维度退化》系列揭示了反范式设计的深层逻辑——“存储冗余”本质是用空间换时间,但何时退化、退化到何种程度,需追踪到“业务查询的时空分布规律”。:康德“二律背反”的现代演绎——唯有建立“先验规范+自治空间”的弹性架构(如指标字典+动态视图),才能实现“规范下的自由”。
2025-04-26 09:00:00
1150
原创 妹爷vs快手数仓:DWS层构建好后,新来了一个需求,需要添加某个维度字段,你是怎么考虑和设计的?
DWS层的设计本质是在稳定性与灵活性间寻找平衡。最小化侵入:优先通过逻辑层解耦(视图/外键化)按需物化:高频维度预计算,长尾维度动态关联自动化兜底:用数据质量监控+元数据治理降低风险业务驱动演进:避免技术理想化设计,贴合实际查询模式最终,优秀的数仓架构应像乐高积木一样——每个模块可独立替换,但整体始终稳固可靠。
2025-04-25 08:30:00
50
原创 Dify vs RAGFlow:如何选择适合你的RAG与低代码AI平台?
随着大模型技术在企业场景的落地加速,开发者常面临工具选型难题:是否应该选择低代码平台快速搭建AI应用,还是采用垂直工具实现专业级文档处理?本文聚焦两款热门工具——Dify与RAGFlow,从技术架构、功能特性到应用场景进行全方位对比,为开发者提供选型决策依据。一、工具定位与核心差异1.1 Dify:低代码通用AI应用工厂定位:面向非技术用户的AI应用开发平台,支持快速构建对话机器人、内容生成、数据分析等场景。核心优势:• 低代码/无代码交互:通过可视化界面拖拽编排工作流,无需编码即可调用大模型能力。
2025-04-25 08:00:00
868
原创 大语言模型生成控制参数详解:温度、Top-K与Top-P
温度、Top-K和Top-P的灵活组合,为LLM生成结果的可控性提供了多层次解决方案。开发者需深入理解各参数的数学本质,结合实际场景需求,通过系统化实验找到最佳配置。随着自适应参数调整技术的发展,未来或将实现更智能的上下文感知生成策略。
2025-04-23 09:00:00
989
原创 智能体应用现状、挑战及发展路径综述
智能体(AI Agent)作为人工智能技术的重要载体,正逐步渗透至生产与生活的各个领域,成为推动产业升级和社会变革的核心驱动力。中国电子信息产业发展研究院发布的《智能体应用现状挑战及建议》报告系统梳理了智能体的技术框架、发展现状、全球动向及未来挑战,并提出了针对性的发展建议。本文基于该报告内容,结合学术视角,从技术特征、产业生态、区域策略、瓶颈问题及优化路径等方面展开综述,以期为智能体技术的深化研究与应用提供参考。
2025-04-23 08:15:00
970
原创 SQL 中 GROUPING SETS 结合多个 COUNT(DISTINCT) 的数据膨胀问题与优化实践
在中,数据膨胀指中间计算结果(如哈希表、临时数据)因分组组合和去重操作的叠加效应,导致数据量远超原始输入的现象。原始数据量:1 亿条订单记录。膨胀后中间数据量:可能达到数十亿条。在 SQL 中使用结合多个时,数据膨胀问题的本质是组合爆炸与去重成本叠加的共同作用。通过预聚合、分步计算或近似计数等方案,可有效缓解性能瓶颈。实际场景中需结合数据规模、精确性要求和计算资源综合权衡,选择最优策略。
2025-04-22 09:00:00
174
原创 腾讯云-DeepSeek+企业知识库:大模型员工助手,助力企业人效提升和业务增长
核心内容概述报告围绕腾讯云的DeepSeek+企业知识库解决方案,展示了如何通过大模型技术(如RAG、WorkFlow、Agent模式)构建智能员工助手,助力企业提升人效、优化业务流程并实现业务增长。重点覆盖知识管理、复杂任务处理、多模态数据解析等场景,结合实际客户案例验证产品价值。产品核心功能与模式三大应用模式标准模式(RAG):快速部署知识问答系统,适用于严肃问答场景(如企业规章制度查询)。工作流模式:通过可视化拖拽编排复杂业务流程(如保险建议书生成),支持零代码开发。Agent模式。
2025-04-21 08:00:00
1142
原创 数仓多源异构数据整合策略:融合与分离的实践指南
面对多源异构数据整合的复杂挑战,企业需采取"分而治之,合而为一"的策略。通过建立清晰的决策框架、设计灵活的技术方案、实施严格的质量控制,最终实现数据资产的全局可管、可控、可用。未来随着Data Mesh等新范式的普及,数据治理将进入更智能、更自治的新阶段。
2025-04-20 08:30:00
1132
原创 检索增强生成(RAG)系统的技术演进、核心架构与优化实践
在人工智能领域,问答系统的发展经历了从基于规则匹配到深度学习的巨大跨越。早期的系统如IBM Watson依赖复杂的规则库和知识图谱,但其灵活性和泛化能力受限于人工设计的逻辑。随着预训练语言模型(如BERT、GPT)的崛起,生成式AI展现了强大的文本理解和创作能力,但其“幻觉”(Hallucination)问题始终是落地应用的瓶颈。的提出,标志着一种全新的技术范式。它通过将外部知识检索与生成模型动态结合,既保留了生成模型的创造力,又通过引入实时数据降低了幻觉风险。
2025-04-19 08:15:00
818
原创 CIO企业数据治理平台规划建设方案
某地市级大数据治理平台:围绕“一舱一中心、两门户两体系九平台”进行建设,构建城市驾驶舱,实现数据赋能。- 某县级公安大数据平台:建立数据资源池,提供数据治理方案,实现数据标准化、融合化等治理工作。方案通过详细的观点阐述、设计方案、功能设计以及实际案例的介绍,全面展示了企业数据治理平台的规划建设思路和具体实施方案。
2025-04-18 11:05:36
439
原创 面试灵魂拷问:原子指标需要支持开窗函数吗?
在数据仓库与指标体系的构建中,原子指标的定义一直是核心争议点之一。原子指标是否需要原生支持开窗函数?本文将从设计哲学分层架构工程实践三个维度展开分析,结合具体案例探讨这一问题的本质,最终给出可落地的建议。面试背景公司:某头部电商平台(数据中台团队)岗位:数据仓库开发工程师(高级)面试官:数据架构师(10年经验)问题背景:面试官希望考察候选人对数据建模、指标体系的深度理解,以及技术权衡能力。问题“原子指标需要支持开窗函数吗?为什么?面试场景还原面试官:小撒同学,我看你简历里提到负责过电商指标体系的建设。
2025-04-18 08:30:00
35
原创 网约车平台数仓设计与核心业务分析
从业务流程到数据模型的落地,本质是将现实世界的“交互关系”转化为可计算、可分析的数据资产。通过ER模型定义数据结构,数仓分层规范数据处理流程,最终用指标体系支撑决策,这是所有互联网业务数据化的必经之路。如果你在实际建模中遇到字段冗余、性能优化等问题,欢迎在评论区留言讨论~延伸思考若增加“动态调价”模块,ER图需要新增哪些实体?如何用Hive的分区(Partition)和分桶(Bucket)优化订单表的查询性能?司机服务评分的计算(如近30天平均分),应该放在数仓的哪一层处理?
2025-04-17 09:00:00
740
原创 财务数字化转型:战略重构、技术赋能与未来展望
财务数字化转型并非一蹴而就,而是持续迭代的过程。未来的财务部门将不再是“后台支持者”,而是企业价值的“核心引擎”——通过数据驱动决策、通过技术赋能创新、通过协同创造生态价值。唯有以开放心态拥抱变化,方能在数字经济的洪流中立于不败之地。
2025-04-17 08:15:00
1873
原创 晋升答辩提问:既然业务需求已经很明确了,你数仓建模的价值体现在哪?
建模是「需求与数据的解耦器」短期需求:直接写SQL更快,但会制造技术债务(如烟囱式报表);长期架构:建模通过分层与抽象,将业务需求解耦为可复用的数据组件(事实表、维度表、聚合表),让数据从「项目制交付」升级为「产品化服务」。最终目标:即使需求明确,建模也是为不确定性做准备需求明确解决的是「要什么」,而建模解决的是「如何高效、稳定、可持续地实现」。就像一个建筑师不仅需要理解客户想要「三居室」,更需通过结构设计、材料选型、管线规划,让房屋既满足当前需求,又具备未来改造的可能性。
2025-04-16 09:00:00
108
原创 AI大模型在供应链领域应用研究
一、应用场景与技术手段智能采购提升采购流程自动化与智能化,全链路科学决策能力增强。通过智能分类分级供应商、动态评估与风险管理,降低采购成本约15%-20%。场景痛点:物资编码混乱、SKU管理难、供应商数据维护难、信息不透明等。技术应用:生成式AI(AIGC)、自然语言处理(NLP)、智能寻源、智能合同与核价等。成效供应链计划与排产需求预测准确率提升13%,库存周转天数下降15%。智能排产系统将排产耗时从6小时缩短至1.5分钟,交付效率提升20%。场景痛点。
2025-04-16 09:00:00
656
原创 Hive 窗口函数详解及使用场景总结【基于面试被提问】
在数据分析与处理的面试场景中,窗口函数(Window Function)作为SQL中高阶且实用的功能,常被视为考察候选人实际应用能力与对数据操作深度的关键问题。近日,某同学在技术面试中被要求详细阐述窗口函数的核心用法、典型场景及其与传统聚合函数的区别。面试结束后,该同学结合自身实践与资料整理,对这一问题进行了系统性复盘,发现窗口函数不仅是解决复杂查询问题的利器,更是面试中高频出现的"分水岭"题型——掌握其原理者往往能脱颖而出,而理解不足则可能暴露对SQL进阶能力的短板。本文基于该同学的面试总结,从。
2025-04-16 08:30:00
39
原创 大数据治理运营整体解决方案总结
狭义数据治理聚焦数据质量管理,核心目标是消除数据不一致性,建立规范的数据应用标准,提升数据准确性,确保数据在业务和管理中的可靠使用。广义数据治理涵盖数据的全生命周期管理,包括数据采集、清洗、存储、共享、安全、开发与应用等环节,并通过构建数据资产目录、标准管理体系、质量监控机制等,实现数据资产的价值转化。核心要素组织保障:明确数据治理责任主体,建立跨部门协作机制。制度规范:制定数据管理政策、流程与标准(如元数据标准、数据质量标准)。技术支撑:依赖专业化的数据治理平台,实现流程自动化与智能化。
2025-04-15 08:15:00
2436
原创 数字工厂指标体系全解析:从理论建模到数仓落地实践
随着数字孪生、元宇宙等新技术的发展,未来工厂指标体系将呈现三大趋势:虚实映射:物理工厂与数字模型的指标实时镜像自愈能力:基于指标异动的自动归因系统价值延伸:碳足迹、社会效益等ESG指标纳入体系往期精彩川普vs某互联网金融科技公司:面试提问数据建模,必须由数仓团队来做吗?业务系统不能做吗?浙江大学《智能金融:AI驱动的金融变革》潘子vs小红书数仓团队:数仓分主题预计算的好处和坏处是什么?关注我们,获取《装备制造企业数字化转型白皮书》完整版!
2025-04-14 09:00:00
772
原创 川普vs某互联网金融科技公司:面试提问数据建模,必须由数仓团队来做吗?业务系统不能做吗?
近日川建国(资深数仓工程师)同志面试某互金科技公司惨遭失败,被面试官问到“数据建模,必须由数仓团队来做吗?业务系统不能做吗?” 这一问题时不知道该如何回答。川建国吐槽:“看来现在数仓面试都在玩哲学,作为数仓界的扛把子,这些问题,我是重来没想到过的,看来我还得继续修炼,至少得读读唯物辩证法”。以下是整个面试的过程,我们一起来看一下川建国的遭遇。
2025-04-14 08:15:00
180
原创 潘子vs小红书数仓团队:数仓分主题预计算的好处和坏处是什么?
提到技术趋势(如湖仓一体、实时数仓)会加分,例如: “现在许多公司尝试湖仓一体架构,将预计算与原始数据共存,通过动态查询加速技术(如Databricks Delta Lake)兼顾灵活性和性能。好处嘛,就是查询快,因为数据提前算好了。: “预计算通过提前加工高频使用的指标(如销售额、用户留存),将复杂查询转为轻量查询,适合BI报表、看板等固定分析场景,显著降低查询延迟。未来,随着实时数仓与湖仓一体技术的成熟,预计算可能与动态查询加速进一步融合,但“用存储换时间”的核心思想将始终是数据架构设计的底层逻辑。
2025-04-12 09:00:00
120
原创 数据建模到底该谁干?业务团队与数仓团队的“世纪之争”
数据建模的权责之争,本质是企业如何在“敏捷创新”与“可持续运营”之间寻找平衡点。业务系统与数仓团队不应是对立的甲乙双方,而是数据价值链上的共生伙伴——前者是数据的生产者,后者是价值的挖掘者。唯有建立“规则下的自由”协作框架,才能让数据从成本负担进化为战略资产,真正驱动企业的指数级增长。往期精彩。
2025-04-11 13:34:29
941
原创 浙江大学《智能金融:AI驱动的金融变革》
本报告基于郑小林教授团队的学术研究与产业实践,系统梳理了自然语言处理、强化学习、模型蒸馏等前沿技术的演进路径,并结合信贷风控、智能投研、反洗钱分析等实际案例,剖析AI在金融领域的创新应用与核心挑战。随着大语言模型(LLM)、强化学习(RL)等技术的突破,金融行业逐步迈入以“数据驱动、智能决策”为核心的“智能金融”时代。:AI正通过大模型、强化学习与隐私计算等技术,驱动金融行业在风控、营销、投研等场景的智能化变革,未来需持续突破可解释性、安全合规等挑战,构建可信、高效的人机协同生态。
2025-04-11 09:00:00
1239
原创 如何使用DeepSeek制作数学动态可视化课件?
这里的提示词最重要的是描述清楚需求,无论你要生成哪个知识点的图片信息,都要加上动态图片、动画效果等字眼,一般动态图片是gif文件格式,但是DeepSeek会告诉你它无法直接生成GIF动态图片文件,它会给你html文件格式,所以我们一般告诉它以html的格式输出,你也无需想以前把代码复制出来手动修改再运行,DeepSeek直接帮我们内嵌的html文件解析,你只需要直接点击即可运行查看效果。数学的公式,很多时候直接上手都比较难以理解,但是如果通过可视化的方式,就会变得相对容易很多。现在我们来看一下怎么做吧。
2025-04-10 11:01:36
465
原创 王小虎 vs 快手面试官:指标生命周期管理在指标下线阶段会从哪些维度来评估判断下线? 下线的流程是什么?
方法论沉淀:能否将指标下线抽象为标准化流程,而非依赖临时决策。风险预判:是否对“下线动作”可能引发的业务、技术、法律风险有预判和应对方案。价值导向:能否从数据资产管理的角度,说明下线动作对企业的长期价值(如降本增效)。仅回答了“What”(下线做什么),却未体现“Why”(为何要评估这些维度)和“How”(如何安全落地),而这正是数据治理岗位的核心能力要求。~~【文末附面试满分回答模板】~~一、为什么指标下线比上线更难?指标下线看似是简单的“删除动作”,实则是业务、技术、合规的三角博弈业务风险。
2025-04-10 08:15:00
121
原创 数字化转型深水区:2025年CIO战略突围的五大核心命题
在数字化转型的深水区,CIO的角色正在从技术管理者进化为数字商业架构师。技术策源力:把握技术演进与商业价值的共振点生态构建力:创建跨部门、跨企业的价值网络风险驾驭力:在创新速度与稳健运营间动态平衡未来三年,那些能成功整合AI、数据和网络安全能力,并转化为商业价值的CIO,将引领企业跨越数字化鸿沟,在技术革命的新周期中建立持久竞争优势。正如Gartner所强调的,这场转型"不是技术的马拉松,而是组织能力的接力赛",CIO需要成为当之无愧的领跑者。往期精彩。
2025-04-10 08:15:00
1000
原创 SQL用户Session分析实战:5分钟动态Session切割 × 多阶段行为路径追踪 × 漏斗转化率精确计算
数据准备:原始日志清洗 → 分区表构建Session切割:时间差值计算 → 动态标识路径分析:行为序列化 → 关键路径提取漏斗计算:阶段标记 → 多级聚合效果评估:ROI计算 → 品类维度下钻。
2025-04-09 08:30:00
104
原创 数据模型评估的四维黄金法则:从技术验证到业务价值证明
当滴滴出行的新模型评估报告最终呈现时,业务VP与技术总监达成了罕见共识:在GMV提升12%的同时,计算成本下降35%。这标志着评估体系从技术工具升级为商业语言。在数据驱动决策的时代,优秀的模型评估能力正在成为核心竞争优势。正如《Designing Data-Intensive Applications》作者Martin Kleppmann所言:"系统的真正价值,不在于它有多精妙,而在于它如何改变组织的行为模式。
2025-04-08 23:25:26
987
原创 Hive 动态分区小文件过多问题优化
动态分区易产生海量小文件。假设输入数据1TB,启用2000 Mapper任务且每个任务生成100分区,则总文件数为2000×100=200,000,远超。
2025-04-08 08:00:00
124
原创 从0到1构建用户画像系统全流程解析
在实际开发画像的过程中,由于运营人员对业务更为熟悉、而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则确定由运营人员和数据人员共同协商确定;:这类标签是最为基础也最为常见的标签类型,例如对于某个用户来说,他的性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费类数据中统计得出。用户画像建模其实就是对用户进行打标签,从对用户打标签的方式来看,一般分为三种类型:1、基于统计类的标签;2、基于规则类的标签、3、基于挖掘类的标签。
2025-04-07 10:00:00
1590
原创 智能问数系统技术架构解析:从自然语言到业务洞察的自动化之路
该架构已超越传统问答系统范畴,正在演进为企业级的认知计算中枢。其核心价值不在于技术组件的堆砌,而在于构建了业务语义与数据计算之间的"转化场",使得数据资产能够以业务语言的形态直接参与价值创造。这种转化能力的工业化实现,标志着企业智能化建设进入了"语义即服务"(Semantics as a Service)的新纪元。往期精彩王二狗 vs 京东面试官:作为数仓工程师是如何和业务方沟通需求的?需求模糊或存在冲突时,你是怎么处理的?基于大模型DeepSeek的企业典型AI应用。
2025-04-07 08:15:00
782
原创 AI应用落地的最新工具集汇总
是经过知乎微调的版本,主要作为知识库的形式存在。知识库搜索的速度特别特别慢,输出速度中等。需要创建一个自己的应用,目前不能联网搜索(可以选择添加搜索插件,但是无效果)可以把对话内容放入个人知识库,可以基于知识库里的历史对话继续问答。审核较严,V3 和 R1 并不是在同一个页面的,需要重新搜索模型。审核严,有时只会输出思维链,不进行实际总结回答。界面与传统聊天框不一样,可能会不太习惯。正常情况下响应速度快,偶尔会卡死不动。需要身份认证,使用路径复杂。腾讯云-大模型知识引擎。需要身份认证,易卡死。
2025-04-05 10:45:00
1335
人工智能大模型交互技巧与提示词优化:提升GPT应用效果的用户指南
2025-05-04
数据分析指标异动贡献度实操计算中的5个常见问题及详细解答:归因方法解析与应用
2025-04-28
【人力资源管理】基于DeepSeek提示词的人才发展全流程指南:从规划到保留的系统化策略设计
2025-04-28
【人力资源管理】基于DeepSeek的员工关系管理全流程提示词:招聘至离职环节高效沟通指南
2025-04-28
人工智能ChatGPT提示词教程:结构化表达与Markdown格式在AI交互中的应用及优化
2025-04-28
【AI技术发展与应用】基于DeepSeek的多场景智能解决方案:从AIGC技术到企业私有化部署实践
2025-04-26
云音乐数据治理探索与实践.pdf数据治理云音乐数据治理探索与实践:从数据规范到资产治理的全流程优化
2025-04-26
如何更深刻的理解数据治理.docx### 【数据治理领域】数据治理发展历程、定义及实践:从历史演变到金融行业应用的全面解析
2025-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人