最近我们专业开了《大语言模型技术与应用》这门课,教材系统地讲了Transformer架构、预训练与微调、提示工程这些核心内容,还配有实践案例。感觉这本书理论够硬,但代码实现部分有点跳跃,自己看PDF跟不上,想找点配套的笔记或者习题讲解。
班上同学都说这课“看着简单写起来难”,尤其是调参和模型部署那几章。我现在主要在B站找视频补基础,顺便刷GitHub上的开源项目。希望有人能分享一下课后习题的思路或者实验报告的模板,但别直接发答案,毕竟老师会查重。
如果有学长学姐学过这本书,求教一下你们是怎么把注意力机制和RLHF吃透的?我是拿经典论文对照着啃,但效率太低了。或者有没有推荐的讨论群、博客合集?提前谢谢大家了,一起避坑上岸!