消息传递与特征变换分离的图神经网络 在研究图神经网络的鲁棒性的时候,发现消息传递和特征变化分离开会更有鲁棒性,但未找到是否有前人做过。后来我才发现这正是PPNP的结构。 PPNPPPNP(personalized propagation of neural predictions)出自ICLR2019的《 Predict then Propagate: Graph Neural Networks meet Personalized 2025-04-26 #深度学习 #图神经网络
Target Encoding Target Encoding又名mean encoding。正如其名,实际上是把符合条件的y的均值作为这个条件的所有样本的新特征。 在kaggle的S5E2和这个月正在进行的S5E4等比赛都获得了耀眼的表现。 最简单的形式是 1df.groupby("xxx").mean() 2025-04-25 #机器学习 #kaggle
ICLR25 Oral 若干(感兴趣)论文解析 ICLR25这几天在新加坡进行,借着兴致,选择了若干篇感兴趣的文章进行分享。本着能复现的原则,会尽量选择有代码或者实现容易的论文。 Joint Graph Rewiring and Feature Denoising via Spectral Resonance论文地址: https://openreview.net/forum?id=zBbZ2vdLzH 代码: https://github.c 2025-04-24 #深度学习 #人工智能
AUC指标的公榜探测次数 (本文主要源自与@broccoli beef的讨论。) 对于AUC指标,公榜探测需要多少次能得到? 我们可以提前给个结论,一个粗糙的用来估计的界限是N*H(p)/2log2(N)。 2025-03-19 #机器学习 #kaggle #信息论 #运筹学
Muon优化器 近日,Moonshot开源了改进版 Muon 优化算法及用 Muon 训练的SOTA级的MoE小模型。开启了Muon在大模型应用的局面。也许新的优化器时代即将到来! PS:像谷歌23年提出的Lion(EvoLved Sign Momentum)优化器也号称比AdamW好,但是缺乏在大模型上的成功实验,大多数人还是选择Adam/AdamW。 2025-02-24 #深度学习
MoBA vs NSA Kimi公开了他们处理长文的秘密了。团队提出了MoBA (Mixture of Block Attention) ,解决了传统注意力机制在处理长文本时的效率问题。 DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA(Native Sparse Attention),加上还有创始人兼 CEO 梁文锋亲自参与。 2025-02-22 #深度学习
Group Relative Policy Optimization Group Relative Policy Optimization(GRPO)起自deepseekmath,在deepseek-R1中也大放光彩。 看到复旦某组开源了一个简单的仅~200行的关于GRPO的项目simple_GRPO,故决定学习并写写。 2025-02-20 #深度学习
火烧金阁寺 金阁寺是三岛由纪夫所著。 我一向对日本文学除侦探小说以外的书籍不太感兴趣,诸如比较著名的村上春树,我也阅读较少。觉得它们阴沉和晦涩。 我接触三岛由纪夫的相关书籍,可以追溯到高中搬宿舍时从高中学长“继承”而来的《晓寺》。那边草草阅读了一些,就结束了对三岛由纪夫的接触。 看这本三岛由纪夫的《金阁寺》源自fabel的《风吹草动》。由林夕作词,其中写道“火烧金阁寺,是哪一位比我痴”,“分于金阁寺,大有超生 2025-02-17 #阅读