- 博客(277)
- 收藏
- 关注
原创 408考研逐题详解:2009年第18题
本题考察了计算机指令流水线的基本原理及其与CPU时钟周期的关系。指令流水线通过将指令执行过程分解为多个阶段,实现指令级并行,从而提高CPU的吞吐量。在流水线设计中,各功能段的执行时间决定了CPU的时钟周期,时钟周期必须至少等于最长功能段的执行时间。本题中,四个功能段的执行时间分别为90ns、80ns、70ns和60ns,因此CPU的时钟周期至少为90ns。答案选A。
2025-05-20 09:35:23
400
原创 408考研逐题详解:2009年第17题
2009年第17题考查了RISC(精简指令集计算机)和CISC(复杂指令集计算机)的基础知识。RISC通过简化指令集和优化硬件设计提高性能,其特点包括精简指令、硬件加速、流水线友好和寄存器密集型。RISC的关键技术特征包括单周期执行、Load/Store架构、硬连线控制和优化编译器。CISC则通过复杂指令减少程序代码量,其设计特点包括丰富指令集、可变指令格式、微程序控制和内存直接操作。现代架构中,CISC借鉴RISC,RISC增强功能,两者性能差距缩小。根据题目选项,选项A(RISC普遍采用微程序控制器)是
2025-05-20 08:44:08
233
原创 研读论文《Attention Is All You Need》(7)
注意力机制是一种将查询与一组键值对映射到输出的函数,其中查询、键、值和输出均为向量。输出是值的加权和,权重由查询与相应键的兼容性函数计算得出。具体实现中,查询、键和值被分别打包成矩阵 $Q$、$K$ 和 $V$,输出矩阵通过公式 $\text{Attention}(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$ 计算。常见的注意力函数包括加性注意力和点积(乘法)注意力。点积注意力与加性注意力在理论复杂度上相似,但点积注意力在实际应用中更快且更节省空间,因为它可以通
2025-05-19 21:31:06
524
原创 408考研逐题详解:2009年第16题
本题考察了计算机体系结构中的相对寻址方式。机器字长为16位,主存按字节编址,转移指令由操作码和相对位移量两个字节组成。取指令时,每取一个字节PC自动加1。转移指令位于地址2000H,相对位移量为06H。根据相对寻址规则,目标地址为下一条指令地址(2002H)加上位移量(06H),即2008H。因此,正确答案为C。相对寻址方式通过相对位置而非绝对地址实现跳转,支持位置无关代码和程序重定位。
2025-05-18 16:25:41
317
原创 研读论文《Attention Is All You Need》(6)
本文介绍了Transformer模型中的编码器和解码器结构。编码器由6层相同的结构堆叠而成,每层包含两个子层:多头自注意力机制和前馈神经网络,并采用残差连接和层归一化技术。所有子层和嵌入层的输出维度均为512。解码器同样由6层组成,除了包含编码器中的两个子层外,还增加了第三个子层,用于对编码器输出进行多头注意力计算。解码器也采用了残差连接和层归一化,并通过掩码机制防止当前位置关注后续位置信息,确保位置i的预测仅依赖于小于i的已知输出位置。
2025-05-18 14:19:12
907
原创 408考研逐题详解:2009年第15题
2009年408考研第15题考查了计算机存储器扩展的基本方法。题目要求设计一个64KB的主存,其中ROM区为4KB,其余为RAM区,按字节编址。使用2K×8位的ROM芯片和4K×4位的RAM芯片,计算所需芯片数量。解析中详细介绍了位扩展和字扩展的概念,并逐步计算了ROM和RAM芯片的数量。最终,ROM芯片需要2片,RAM芯片需要30片,因此正确答案为D。
2025-05-16 08:42:05
667
原创 研读论文《Attention Is All You Need》(5)
本文介绍了神经序列转换模型的架构,特别是编码器-解码器结构。编码器将输入符号序列映射为连续表征序列,解码器则根据这些表征逐步生成输出序列,每次生成一个元素,并在生成过程中采用自回归方式,将先前生成的符号作为额外输入。Transformer模型遵循这一架构,其编码器和解码器均采用堆叠式自注意力层和逐点全连接层,如图1所示。
2025-05-16 08:12:10
876
原创 408考研逐题详解:2009年第14题
2009年第14题考察了计算机Cache的组相联映射方式。题目中,Cache共有16块,采用2路组相联映射,每组2块,主存块大小为32B,按字节编址。要求确定主存129号单元所在主存块应装入的Cache组号。通过两种方法计算,均得出组号为4。方法一通过主存地址的二进制分解,提取组号;方法二通过主存块号与组数的模运算得出组号。两种方法本质相同,均利用了二进制低位提取实现分组映射。最终答案为C,即组号为4。
2025-05-15 10:56:49
722
原创 研读论文《Attention Is All You Need》(4)
自注意力机制(Self-attention)是一种通过关联单个序列内部不同位置来计算序列表征的机制,已成功应用于阅读理解、抽象摘要、文本蕴含等多个领域。端到端记忆网络则基于循环注意力机制,在简单语言问答和语言建模任务中表现优异。Transformer是首个完全依赖自注意力机制计算输入输出表征的转换模型,无需使用序列对齐的RNN或卷积结构。后续章节将详细描述Transformer架构,阐述自注意力机制的原理,并论述其相对于其他模型的优势。
2025-05-14 15:38:19
962
原创 408考研逐题详解:2009年第13题
本题考察浮点数加减运算的基本步骤,包括对阶、尾数运算、规格化、舍入和判溢出。给定两个浮点数X和Y,其阶码和尾数均采用补码表示,位数分别为5位和7位(含2位符号位)。首先,将X和Y转换为二进制表示,并进行对阶操作,使两者的阶码相同。接着,进行尾数相加,得到的结果为01.00010。由于尾数符号位为01,需要进行规格化处理,将尾数右移1位,阶码加1,得到00.10001和01,000。最后,判断阶码是否溢出,发现阶码01,000超过最大值111,因此发生溢出。故本题答案为D。
2025-05-14 15:29:02
681
原创 408考研逐题详解:2009年第12题
在32位机器上,C语言程序中的变量x、y和z分别定义为int、short和int类型。当x=127,y=-9时,执行z=x+y后,x、y和z的值分别为:x=0000007FH,y=FFF7H,z=00000076H。解析过程涉及补码转换、二进制与十六进制转换以及补码加法运算。y的16位补码为FFF7H,x的32位补码为0000007FH,两者相加后得到z的32位补码00000076H,对应十进制118,无溢出。因此,正确答案为D。
2025-05-12 12:10:07
697
原创 研读论文《Attention Is All You Need》(3)
本文探讨了几种基于卷积神经网络的序列计算模型(Extended Neural GPU、ByteNet和ConvS2S),它们通过并行计算降低序列计算复杂度。然而,这些模型在处理远距离依赖关系时存在局限性,因为计算量随位置间距增长而增加(ConvS2S线性增长,ByteNet对数增长)。Transformer模型通过将计算量降至常数级别,显著改善了这一问题,尽管注意力加权位置的平均化可能降低有效分辨率,但通过多头注意力机制得以缓解。总体而言,Transformer在全局依赖建模和计算效率方面展现出优势,成为当
2025-05-12 09:26:49
750
原创 408考研逐题详解:2009年第11题
在冯·诺依曼计算机中,指令和数据均以二进制形式存储在同一个存储器中。CPU 区分它们的依据是指令周期的不同阶段。指令周期包括取指、译码、执行、访存和写回五个阶段。在取指阶段,CPU 从存储器中读取的内容被视为指令;而在执行或访存阶段,读取的内容则被视为数据。因此,正确答案是 C. 指令周期的不同阶段。这一机制是冯·诺依曼计算机实现“存储程序”功能的核心基础。
2025-05-10 09:16:37
418
原创 408考研逐题详解:2009年第10题
所以,如果用二路归并排序算法,第二趟排序之后所得到的序列中,前 4 个关键字应该是有序的,但是本题中已知序列中的前 4 个关键字“11,12,13,7”不符合此要求。第 2 趟取出待排序序列中的第 2 个关键字,将此关键字插入到 L 中,且使 L 成为一个有序序列,也就是比较此关键字与 L 中已有关键字进行比较,并找到合适的插入位置。若数据元素序列 11,12,13,7,8,9,23,4,5 是采用下列排序方法之一得到的第二趟排序后的结果,则该排序算法只能是( )。
2025-05-08 10:41:25
558
原创 研读论文《Attention Is All You Need》(2)
主句This (inherently sequential) nature precludes parallelization (within training examples)是主谓宾结构,其中precludes是谓语,前后分别是主语和宾语,第一个括号中是前置定语,修饰nature,第二个括号中是后置定语,修饰parallelization。句子的主干是:Recurrent models factor computation. 这是一个主谓宾结构的简单句,其中factor用作动词,是句子的谓语;
2025-05-08 08:31:16
1133
原创 408考研逐题详解:2009年第9题
已知的小根堆,用完全二叉树表示,如下图中的(1)所示,将关键字 3 插入之后,即为图中(2)所示。而后对该堆进行调整,使其符合小根堆的性质,得到图(3)所示结果。已知关键字序列 5,8,12,19,28,20,15,22 是小根堆(最小堆),插入关键字 3,调整后得到的小根堆是( )
2025-05-06 12:52:17
192
原创 研读论文《Attention Is All You Need》(1)
论文《Attention Is All You Need》是 Ashish Vaswani 等人于 2017 年发表在 NeurIPS 会议上的论文,提出了架构,彻底改变了自然语言处理(NLP)和人工智能领域的研究范式。原文地址:https://arxiv.org/pdf/1706.03762。
2025-05-06 10:10:31
1224
原创 LLM(17):计算所有输入 token 的注意力权重
张量中的每个元素代表每对输入之间的注意力分数,正如图 3.11 中看到的那样。请注意,该图中的值是经过归一化的,这就是它们与前一个张量中未归一化的注意力分数不同的原因。如图 3.11 所示,到目前位置,已经计算了输入中的第二个词元的注意力权重和上下文向量,接下来将扩展这一计算过程,为所有输入计算注意力权重和上下文向量。在计算前述的注意力分数张量时,使用了 Python 中的 for 循环。是一个二维张量(例如,形状为 [行, 列]),它将在列上进行归一化,使得每一行的值(在列维度上求和)总和为 1。
2025-05-05 09:48:34
690
原创 408考研逐题详解:2009年第8题
很显然,B+树的叶结点之间通过指针链接。所以题目中的选项 D 不符合 B 树定义,这是 B+树的特点。根据以上内容,可以判断,题目中的 A/B/C 选项的叙述都是符合 m 阶 B 树定义的。下列叙述中,不符合 m 阶 B 树定义要求的是( )A. 根结点最多有 m 棵子树。C. 各结点内关键字均升序或降序排列。本题考查了 B 树和 B+树的基础知识。B. 所有叶结点都在同一层上。D. 叶结点之间通过指针链接。
2025-05-05 08:54:41
766
原创 LLM(16):计算查询词元的上下文向量
自注意力(self-attention)中,如何计算查询词元的上下文向量,是self-attention中的重点。本文详细阐述之。
2025-05-04 10:34:40
939
原创 408考研逐题详解:2009年第7题
考虑一个特例,无向连通图的最小情况,即生成树的情况。生成树的边数正好等于顶点数减 1。因此,如果图是一个生成树,则边数不会大于顶点数减 1。所以,此叙述是错误的。考虑一个无向连通图的特殊情况,例如一个环形结构。在这种情况下,每个顶点的度都是 2,没有顶点的度为 1。所以,这个叙述也是错误的。下列关于无向连通图特性的叙述中,正确的是( )连接两个顶点(允许自环和平行边)。III. 至少有一个顶点的度为 1。所以,题目中的叙述 I 是正确的。II. 边数大于顶点个数减 1。I. 所有顶点的度之和为偶数。
2025-05-04 09:16:09
266
原创 408考研逐题详解:2009年第6题
在二叉树中,“结点 u 是结点 v 的父结点的父结点”,有如下图所示的几种情况,并将每种情况下的二叉树还原为树(局部),根据还原的结果可以看出 u 和 v 两个结点的可能关系。上述过程中,每个结点左指针指向该结点的第一个孩子,右指针指向它在树中的相邻右兄弟,即“左孩子右兄弟”规则。将森林转换为对应的二叉树,若在二叉树中,结点 u 是结点 v 的父结点的父结点,则在原来的森林中,u 和 v 可能具有的关系是( )二叉树还原为树的基本方法是:将二叉树中的左分支保持不变,右分支还原成兄弟关系。
2025-05-01 11:38:27
1207
原创 LangChain简明教程(12)
LangChain 使得原型设计 LLM 应用程序和 Agents 变得简单。然而,将 LLM 应用程序部署到生产环境可能会出乎意料地困难。需要对提示词(prompt)、链(chain)和其他组件进行大量定制和迭代,以打造一个高质量的产品。LangSmith 的目的是为了让这一过程更简便。LangSmith 是一个用于调试、测试和监控 LLM 应用的统一平台。
2025-05-01 10:37:02
1086
原创 408考研逐题详解:2009年第5题
已知一棵完全二叉树的第 6 层(设根为第 1 层)有 8 个叶结点,则该完全二叉树的结点个数最多是( )A. 39B. 52C. 111D. 119。
2025-04-30 10:15:26
524
原创 LangChain简明教程(11)
此外,它还提供了一个客户端,可用于调用部署在服务器上的 runnables,同时在 LangChainJS 中也提供了 JavaScript 客户端。如果需要,可以选择该云服务商提供的类似服务。以下是一个服务器示例,它部署了一个 OpenAI 的聊天模型、一个 Anthropic 的聊天模型,以及一个使用 Anthropic 模型来讲某个主题相关笑话的链(chain)。如果继承了该类型,服务器将把解码后的数据保持为 Pydantic 模型的形式,而不会将其转换为字典。的键,其值必须是已知控件列表中的一个。
2025-04-30 09:06:18
1039
原创 408考研逐题详解:2009年第2题
设栈 S 和队列 Q 的初始状态均为空,元素 a,b,c,d,e,f,g 依次进入栈 S。若每个元素出栈后立即进入队列 Q,且 7 个元素出队的顺序是 b,d,c,f,e,a,g,则栈 S 的容量至少是( )A.1B.2C.3D.4。
2025-04-27 09:24:06
513
原创 LangChain简明教程(9)
系列文章《LangChain简明教程》的 1~8 篇,是 LangChain 应用的基础篇。从本篇开始,介绍 LangChain 独有的 LCEL ,即 LangChain 表达式语言。
2025-04-27 08:30:27
1079
原创 LangChain简明教程(8)
这种 memory 类型会随着时间的推移创建对话的摘要,适用于浓缩较长对话中的信息。这种 memory 类型结合了对话摘要和缓冲区,能够在最近的交互与摘要之间保持平衡。它使用 token 长度来决定何时刷新交互内容。可以使用这些 memory 类型来增强在 LangChain 中与 AI 模型的交互。每种 memory 类型都有其特定的用途,并可以根据需求进行选择。
2025-04-25 09:01:54
595
原创 LangChain简明教程(7)
在 LangChain 中,大型语言模型(LLM)应用中的链式操作通常涉及将提示模板(prompt template)与 LLM 结合,并可选地加入输出解析器(output parser)。在语言模型领域,一种常见的做法是通过一系列后续调用来跟进初始调用,其中将一个调用的输出作为下一个调用的输入。此外,LangChain 的元数据标注器文档转换器可以用于从 LangChain 文档中提取元数据,功能类似于标注链,但专门应用于 LangChain 文档。例如,考虑一个需要根据戏剧的标题和时代生成概要的情况。
2025-04-24 08:55:16
1299
原创 LangChain简明教程(6)
在使用此 agent 时,请务必小心,以防止 LLM 生成的恶意 Python 代码可能带来的潜在危害。该 agent 将执行必要的操作来创建问题,并提供响应,例如 “已在项目 PW 中创建了新问题,摘要为‘制作更多炒饭’,描述为‘提醒自己制作更多炒饭’。请注意,运行某些查询(例如“运行可能的最大查询”)可能会使您的 SQL 数据库过载,尤其是当数据库包含数百万行数据时。即使在遇到初始错误后,agent 也会进行调整并提供正确答案,在本例中,答案是销量最高的前三名艺术家。
2025-04-23 08:52:57
905
原创 LangChain简明教程(5)
AgentExecutor 处理各种复杂性,例如:当 agent 选择了一个不存在的工具时,AgentExecutor 负责处理此时出现的情况,另外还处理工具错误、管理 agent 生成的输出,以及在所有级别提供日志记录和可观测性内容等。虽然已经创建了 agent,但现在要为它编写一个运行机制(runtime,也常称为“运行时”),最简单就是不断地调用 agent,执行操作,并重复此过程直到 agent 完成任务。到目前为止,我们创建的 agent 是无状态的,这意味着它不会记住之前的交互。
2025-04-22 09:14:15
740
原创 LangChain简明教程(4)
从纯粹技术角度描述,Agent 即是对链式(chains)概念的提升,利用语言模型动态地决定要执行的动作序列,使它们变得极其灵活和适应性强。LangChain 引入了一个强大的概念,称为 Agent,当前的很多媒体将其翻译为“智能体”,从汉语的译名来看,它会让人觉得很“智能”。根据需求,你可以选择最适合项目需求的工具和工具包,并将它们集成到 agent 的工作流中。Agent 的输出可以是下一步要执行的动作(AgentActions),也可以是发送给用户的最终响应(AgentFinish)。
2025-04-21 08:44:04
741
原创 数据结构:以一个例题演示弗洛伊德算法
利用弗洛伊德算法,对图 8.5.5 中左侧的带权有向图求最短路径,给出每一对顶点之间的最短路径及其路径长度在求解过程中的变化。保存此时的最短路径,注意,此时意味着两个顶点之间是否有直接地、不经过中间顶点的路径。,即顶点 1 到顶点 2 的最短路径长度是 8。,不经过任何中间结点,任何两个顶点之间的距离,即为邻接矩阵。,以顶点 0 为中间点,任何两个顶点之间的最短距离,即。,以顶点 1 为中间点,任何两点之间的最短距离,即。,即顶点 2 的前驱是顶点 3,即路径。,即顶点 3 的前驱是 1。
2025-04-19 09:47:06
610
原创 LangChain简明教程(3)
LangChain 中的文本嵌入模型为各种嵌入模型提供商(如 OpenAI、Cohere 和 Hugging Face)提供了一个标准化的接口。:LangChain 提供了各种自定义加载器,可以直接从应用程序(如 Slack、Sigma、Notion、Confluence、Google Drive 等)和数据库中加载数据,并将其用于大语言模型(LLM)应用程序。这些工具展示了在 LangChain 中转换文档的各种方法,从简单的文本分割到复杂的重新排序和针对特定语言的分割。理解这些嵌入的原理非常重要。
2025-04-19 09:43:09
739
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人