AI文摘

blog-thum
LLM长上下文的问题

最近长上下文的业务需求越来越多,刚好把这个能力现状和主流方案的基础内容简单梳理一下。跟长文本最相关的自然就是位置编码,现在很多模型都使用了RoPE这种位置编码,之前已经把RoPE的基础内容梳理了一遍:

read more
blog-thum
俄罗斯套娃(Matryoshka)嵌入模型概述

在这篇博客中,我们将向你介绍俄罗斯套娃嵌入的概念,并解释为什么它们很有用。我们将讨论这些模型在理论上是如何训练的,以及你如何使用SentenceTransformers来训练它们。除此之外,我们

read more
blog-thum
Yi技术报告细节分享

写在前面Yi模型很早就发布了,但技术报告昨天才出来。之前分享过Llama2、Baichuan2、Qwen,今天来给大家进行细节分享。Yi模型在开篇就强调了模型设计思路是围绕模型规模、数据规模和数据质量

read more