AI文摘

blog-thum
LoRA微调大模型的实践经验总结

前两天SEBASTIANRASCHKA博士发了一篇博客介绍了使用LoRA微调大模型的一些实践经验(原文链接见参考资料),个人觉得有一定参考价值。总结一下分享给大家。简单介绍下什么是LoRA在深度学习

read more
blog-thum
大模型推理能力增强方法总结

推理能力作为一种可能的“象征着真正的智慧”的能力,在过去的几年里兴许不是被探索和研究得最多的,但肯定是被讨论得最为热烈的。相关工作分成三个主要的类型,思维链提示(CoTPrompt),一个生成器

read more
blog-thum
Long-Context下LLM模型架构全面介绍

随着ChatGPT的快速发展,基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存在一个普遍的限制

read more