Blog 📝

挑战 2024 年高考数学新课标 I 卷压轴大题

2024 年高考已落下帷幕。今年最大的变化是全国 I 卷退出历史舞台,很多省份开始采用新高考 I 卷。不少考生反映今年的试题相较过去几年要容易一些,只是压轴大题有点难度。按照惯例,我将继续尝试一下今年数学的最后两道大题,感受一下新高考的变化。

Read more →

June 7, 2024    Last modified on June 7, 2024

东方之美:谈谈中国人的审美自信

复旦大学中国研究院院长张维为教授携手中国美术学院院长高世名教授,一同讨论中国人的审美自信。 从某种意义上说,我们要夺回我们的审美权,或者重建我们的审美权。因为这些年,我们的审美权由于种种原因,相当长时间内,被西方标准、西方话语影响了,而且是有意的、刻意的,造成我们很多人文化不自信,标准不自信。 本文将高世明教授和圆桌讨论的内容进行整理,并且针对部分抽象的内容进行解读。

Read more →

February 14, 2024    Last modified on February 14, 2024

分块矩阵的乘法

矩阵乘法是线性代数中最重要的运算之一。在机器学习中,矩阵乘法也是经常用到的运算,最常见于 MLP 线性层。 而在实际的模型训练和推理系统中,模型参数和中间激活的张量可能非常大,而 GPU 显存空间有限。因此,我们需要将张量切分为多个块,以在 GPU 上实现并行计算。而这和分块矩阵的乘法有着紧密的联系。

Read more →

November 28, 2023    Last modified on January 29, 2024

图解 Flash Attention

Flash Attention 是目前针对 Attention 计算最优解决方案的开山工作,旨在从底层 GPU 的 HBM(High Bandwidth Memory)和 GPU 的片内 SRAM(Static Random Access Memory)的角度尽可能降低访存开销,从而加速 Attention 的计算,在长序列的情况下展现出了优良的性能。 然而,Flash Attention 对于 LLM 初学者来说很不好理解,因为它需要我们对 Attention 的计算过程有非常深入的了解,而其中的难点在于 Softmax 的计算的可分割性的理解。本文希望通过丰富的插图乃至动画,让 Flash Attention 能够通俗易懂。

Read more →

January 27, 2024    Last modified on January 29, 2024

Towards Efficient Generative Large Language Model Serving: A Survey From Algorithms to Systems

随着 AI 的飞速发展,特别是伴随着 ChatGPT 的诞生,标志着深度学习已经进入了大语言模型(Large Language Models,LLM)的时代。然而,LLM 由于其本身的复杂性和大规模而给部署和服务带来了前所未有的挑战。 来自卡内基梅隆大学的 Catalyst 团队在他们的最新综述论文中,从机器学习系统的研究视角出发,详细分析了前沿 LLM 推理从算法到系统的产生的重大变革。

Read more →

January 15, 2024    Last modified on January 19, 2024

挑战 2024 年考研数学(一)

2024 年考研已落下帷幕。据报道,今年考研的人数比去年减少了 36 万(共 438 万人报考),引发社会广泛关注。在刚刚结束的数学科目考试中,不少考生哀叹今年的数学试题难如登天,特别是 301 数学(一)。 本篇博客将持续更新今年数学(一)每道题目的详细作答过程,体会莘莘学子们在考场上的不易。

Read more →

December 24, 2023    Last modified on December 30, 2023

大模型的参数量及其计算访存开销的理论分析

推理服务系统的根本目标在于降低时延和提高吞吐量,LLM 推理的优化也是如此。首字时延(Time To First Token, TTFT)和吐字时延(Time Per Output Token, TPOT)就是两个非常重要的指标。如何优化 LLM 推理的这两个指标成为近年来学术界热议的问题。在研究这个问题之前,有必要深入理解 LLM 架构,分析其参数量和计算访存开销。

Read more →

November 1, 2023    Last modified on December 21, 2023

从圆锥曲线到二次型

Read more →

December 13, 2023    Last modified on December 13, 2023

调和级数的前 n 项和

在推导大模型 Decoder 的自注意力的算术强度时,遇到了如下的数列求和问题: ∑i=1Sout1Sin+i= ∑i=1Sout1i−∑i=1Sin1i \begin{aligned} & \sum_{i=1}^{S_{out}} \dfrac{1}{S_{in}+i} \\ =\ & \sum_{i=1}^{S_{out}} \dfrac{1}{i} - \sum_{i=1}^{S_{in}} \dfrac{1}{i} \\ \end{aligned} = ​i=1∑Sout​​Sin​+i1​i=1∑Sout​​i1​−i=1∑Sin​​i1​​这涉及到求调和级数的前 nnn 项和。所以,本文来研究这个问题。

Read more →

December 2, 2023    Last modified on December 2, 2023