1什么是RLHF?人类反馈强化学习(RLHF)是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人
read more引言在当今AI领域,大型预训练语言模型已成为一种关键技术,推动了自然语言处理领域的进步。本文旨在提供一个辅助指南,如何准备预训练模型大小、数据集大小,以及帮助读者了解如何提升预训练模型的表现。本文将分
read more一、ChatQA11微调如下图,ChatQA微调包含两个阶段,SupervisedFine-tuning和Context-EnhancedInstructionTuning111阶段
read more在构建检索增强生成(RAG)Pipeline时,一个关键组件是Retriever。我们有多种embedding模型可供选择,包括OpenAI、CohereAI和开源sentencetransform
read more01前言Mixtral-8x7B在各大榜单中取得了及其优异的表现,本文主要分享我们微调Mixtral-8x7BMoE模型的初步实践。我们使用Firefly项目对其进行微调,在一张V100上,仅使用4
read more此前,我们更多专注于大模型训练方面的技术分享和介绍,然而在完成模型训练之后,上线推理也是一项非常重要的工作。后续,我们将陆续撰写更多关于大模型推理优化的技术文章,包括但不限于KVCache、Page
read more