GELU函数以其近似 GELU,即Gaussian Error Linear Unit,在论文《Gaussian Error Linear Units (GELUs)》提出,被广泛运用于各大LLM中。 2025-02-16 #深度学习
Mixture of Experts(MoE) MOE是当前比较火的技术之一。比如Mistral、当前最火的deepseek都用到了这一技术。 MOE具有预训练速度更快,推理速度更快的性质。但泛化能力不足,对显存需求比较高。 2025-02-15 #深度学习
TPSS5E1 复盘 预测贴纸销量 | Kaggle — Forecasting Sticker Sales | Kaggle是我参加最久的一次TPS(2025/04/01更新: 3月又全力参加了一次,排名18/4381,排名仍达不到拿swag的名次,但成为唯二的在shakeup中留存的top选手也算差强人意。不得不说第2的chiris是真的强),但成绩不够理想,只拿到了27/2 2025-02-10 #机器学习 #深度学习 #kaggle
ARIMA ARIMA 模型,全称为自回归整合移动平均模型 (Autoregressive Integrated Moving Average model)。 2025-01-15 #机器学习 #时间序列
使用更少的参数建模时间序列 先前的Dlinear已经足够简单,且击败了一众transformer模型。 我们还能使用更少的参数吗?Dlinear使用了两个线性网络,分别周期和残差,我们能只用一个吗? 这也就是FITS所做的,我们直接在傅里叶域上做神经网络,这样能实现了周期和残差的同时建模。 2025-01-10 #深度学习 #时间序列
生存分析速览 生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短,因此该类方法也被称之为事件时间分析(time-lo-event analysis)。生存分析起源于医学与生物科学。 2024-12-26 #深度学习 #生物信息
奈奎斯特定理与香农定理 奈奎斯特准则和香农定理是计算机网络中和信息论中的基础理论,分别给出了无噪声和有噪声信道的最大数据传输速率。但我们可能很好奇,这些式子是怎么推出来的?为什么会和对数结合信噪比这么一个奇怪的东西扯上关系?我们可以看出有$mlogn$,这是否暗藏玄机? 这些内容其实都可以从香农本人的1949年的《通信的数学理论/A mathematical theory of communication》中找 2024-12-16 #计算机网络 #信息论
SYN和FIN都能携带数据吗? SYN和FIN是TCP协议中三次握手和四次挥手的重要标志位。 第三次握手携带数据是常用,且在RFC 793中明确指出可行的。那SYN和FIN中我们能携带数据吗? 但在有些教材中,指出SYN不能携带,这是错误的。 2024-11-01 #计算机网络
思想验证区域(The Community)人物介绍 第三届青龙最佳综艺作品**《思想验证区域:The Community》,是一档汇集了12名不同理念人们的政治生存类综艺**,参与者皆为来自各行业的素人,男女各占一半,分别从政治、性别、阶级、开放性这四个领域划分了属性。 测试链接:https://thecommunity.co.kr/ 为了方便,记录人物介绍。 2024-08-30