阅读列表
个人计划阅读内容,读完会添加笔记连接,阅读列表持续更新。
阅读列表
计算机视觉 - CNN
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2012 | AlexNet | 深度学习热潮的奠基作 | ||
2014 | VGG | 使用 3x3 卷积构造更深的网络 | ||
2014 | GoogleNet | 使用并行架构构造更深的网络 | ||
2015 | ResNet | 构建深层网络都要有的残差连接。 | ||
2017 | MobileNet | 适合终端设备的小CNN | ||
2019 | EfficientNet | 通过架构搜索得到的CNN | ||
2021 | Non-deep networks | 让不深的网络也能在ImageNet刷到SOTA |
计算机视觉 - Transformer
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2020 | ViT | Transformer杀入CV界 | ||
2021 | Swin Transformer | 多层次的Vision Transformer | ||
2021 | MLP-Mixer | 使用MLP替换self-attention | ||
2021 | MAE | BERT的CV版 |
生成模型
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2014 | GAN | 生成模型的开创工作 | ||
2015 | DCGAN | 使用CNN的GAN | ||
2016 | pix2pix | |||
2016 | SRGAN | 图片超分辨率 | ||
2017 | WGAN | 训练更加容易 | ||
2017 | CycleGAN | |||
2018 | StyleGAN | |||
2019 | StyleGAN2 | |||
2020 | DDPM | Diffusion Models | ||
2021 | Improved DDPM | 改进的 DDPM | ||
2021 | Guided Diffusion Models | 号称超越 GAN | ||
2021 | StyleGAN3 | |||
2022 | DALL.E 2 | CLIP + Diffusion models,文本生成图像新高度 |
计算机视觉 - Object Detection
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2014 | R-CNN | Two-stage | ||
2015 | Fast R-CNN | |||
2015 | Faster R-CNN | |||
2016 | SSD | Single stage | ||
2016 | YOLO | |||
2017 | Mask R-CNN | |||
2017 | YOLOv2 | |||
2018 | YOLOv3 | |||
2019 | CenterNet | Anchor free | ||
2020 | DETR | Transformer |
计算机视觉 - 对比学习
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2018 | InstDisc | 提出实例判别和memory bank做对比学习 | ||
2018 | CPC | 对比预测编码,图像语音文本强化学习全都能做 | ||
2019 | InvaSpread | 一个编码器的端到端对比学习 | ||
2019 | CMC | 多视角下的对比学习 | ||
2019 | MoCov1 | 无监督训练效果也很好 | ||
2020 | SimCLRv1 | 简单的对比学习 (数据增强 + MLP head + 大batch训练久) | ||
2020 | MoCov2 | MoCov1 + improvements from SimCLRv1 | ||
2020 | SimCLRv2 | 大的自监督预训练模型很适合做半监督学习 | ||
2020 | BYOL | 不需要负样本的对比学习 | ||
2020 | SWaV | 聚类对比学习 | ||
2020 | SimSiam | 化繁为简的孪生表征学习 | ||
2021 | MoCov3 | 如何更稳定的自监督训练ViT | ||
2021 | DINO | transformer加自监督在视觉也很香 |
计算机视觉 - 视频理解
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2014 | DeepVideo | 提出sports1M数据集,用深度学习做视频理解 | ||
2014 | Two-stream | 引入光流做时序建模,神经网络首次超越手工特征 | ||
2014 | C3D | 比较深的3D-CNN做视频理解 | ||
2015 | Beyond-short-snippets | 尝试使用LSTM | ||
2016 | Convolutional fusion | 做early fusion来加强时空间建模 | ||
2016 | TSN | 超级有效的视频分段建模,bag of tricks in video | ||
2017 | I3D | 提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代 | ||
2017 | R2+1D | 拆分3D卷积核,使3D网络容易优化 | ||
2017 | Non-local | 引入自注意力做视觉问题 | ||
2018 | SlowFast | 快慢两支提升效率 | ||
2021 | TimeSformer | 视频中第一个引入transformer,开启video transformer时代 |
多模态学习
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2021 | CLIP | 图片和文本之间的对比学习 | ||
2021 | ViLT | 第一个摆脱了目标检测的视觉文本模型 | ||
2021 | ViLD | CLIP蒸馏帮助开集目标检测 | ||
2021 | GLIP | 联合目标检测和文本定位 | ||
2021 | CLIP4Clip | 拿CLIP直接做视频文本retrieval | ||
2021 | ActionCLIP | 用多模态对比学习有监督的做视频动作分类 | ||
2021 | PointCLIP | 3D变2D,巧妙利用CLIP做点云 | ||
2022 | LSeg | 有监督的开集分割 | ||
2022 | GroupViT | 只用图像文本对也能无监督做分割 | ||
2022 | CLIPasso | CLIP跨界生成简笔画 | ||
2022 | DepthCLIP | 用文本跨界估计深度 |
自然语言处理 - Transformer
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2017 | Transformer | 继MLP、CNN、RNN后的第四大类架构 | ||
2018 | GPT | 使用 Transformer 解码器来做预训练 | ||
2018 | BERT | Transformer一统NLP的开始 | ||
2019 | GPT-2 | 更大的 GPT 模型,朝着zero-shot learning迈了一大步 | ||
2020 | GPT-3 | 100倍更大的 GPT-2,few-shot learning效果显著 |
系统
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2014 | 参数服务器 | 支持千亿参数的传统机器学习模型 | ||
2018 | GPipe | 流水线(Pipeline)并行 | ||
2019 | Megatron-LM | 张量(Tensor)并行 | ||
2019 | Zero | 参数分片 | ||
2022 | Pathways | 将Jax拓展到上千TPU核上 |
图神经网络
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2021 | 图神经网络介绍 | GNN的可视化介绍 |
优化算法
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2014 | Adam | 深度学习里最常用的优化算法之一 | ||
2016 | 为什么超大的模型泛化性不错 | |||
2017 | 为什么Momentum有效 | Distill的可视化介绍 |
新领域应用
已读 | 年份 | 名字 | 简介 | 引用 |
---|---|---|---|---|
2016 | AlphaGo | 强化学习出圈 | ||
2020 | AlphaFold | 赢得比赛的的蛋白质3D结构预测 | ||
2021 | AlphaFold 2 | 原子级别精度的蛋白质3D结构预测 | ||
2021 | Codex | 使用注释生成代码 | ||
2021 | 指导数学直觉 | 分析不同数学物体之前的联系来帮助发现新定理 | ||
2022 | AlphaCode | 媲美一般程序员的编程解题水平 |
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.