斯坦福大学此前提出的FlashAttention算法,能够在BERT-large训练中节省15%,将GPT训练速度提高23。此后又提出FlashAttentionV2,拥有了更好的并行性和工作分区
read moreAnthropic在亚马逊和谷歌的支持下推出了迄今为止最强大的聊天机器人01关键点-Anthropic周一推出了Claude3,这是一个聊天机器人和人工智能模型套件,据称是迄今为止最快、最强大
read more大型语言模型(LLM):类型、示例01前言大型语言模型(LLM)是生成式人工智能的关键支柱,由于其能够处理大量文本并生成与预测下一个单词相关的准确结果,因此在自然语言处理(NLP)领域越来越受到
read more最近了解了下些常见的推理和加速方案:量化方案:gptq、quantization、int8、int4、AWQ、SpeculativeDecoding、GGUFAttention加速方案:atten的
read more论文名称:LM-Combiner:AContextualRewritingModelforChineseGrammaticalErrorCorrection论文作者:王一轩,王宝鑫,
read more大模型在指定任务上进行微调后,会取得较为不错的效果,但同时可能带来模型原有能力的下降。今天给大家带来一篇通过自我蒸馏减轻大模型微调时的灾难性遗忘的方法-SDFT(Self-DistillationF
read more