Voyage-code-3:更精准、更高效的新一代代码检索引擎
「Voyage AI推出新一代代码检索模型,通过创新的维度压缩和量化技术,在显著提升检索准确率(超越OpenAI 13.8%)的同时,大幅降低了存储和计算成本,为代码搜索领域带来突破性进展」
1. Voyage AI发布了新一代代码检索模型 voyage-code-3,性能显著提升:
- 比OpenAI的模型平均高出13.80%
- 比CodeSage的模型平均高出16.81%
- 支持更长的上下文长度(32K tokens)
2. 创新特性:
- 支持多种维度的嵌入(2048/1024/512/256维)
- 提供多种量化格式,可以大幅降低存储成本
- 采用"套娃式学习"(Matryoshka learning)技术,一个向量可以灵活用于不同长度
3. 实际优势:
- 存储成本大幅降低:使用8位或1位存储可以分别节省4倍或32倍空间
- 性能损失小:即使使用压缩后的格式,检索质量仍然保持在较高水平
- 适配多种主流向量数据库,如Milvus、Qdrant等
4. 训练与评估:
- 使用了更大更多样的代码训练数据
- 覆盖300多种编程语言
- 在238个数据集上进行了全面测试
- 支持多种代码检索场景:文本到代码、代码到代码、文档到代码等
这个发布对开发者和企业的意义:
- 可以用更低的成本获得更好的代码检索效果
- 在保持高性能的同时大幅降低存储和计算成本
- 提供了更灵活的部署选项,可以根据需求选择不同的维度和存储格式
这是代码检索领域的一个重要进展,特别是在效率和成本方面取得了显著突破。他们提供前2亿个token免费使用,开发者可以通过其文档开始尝试。
📢 Announcing voyage-code-3 embedding model!
1. more accurate: 14% gain over OpenAI-v3-large
2. flexible dimension (Matryoshka): 256-2048
3. quantized embeddings: float, int8, binary
4. new Pareto frontier: (binary,256 dim.) is 6% better than OpenAI (float,3072 dim.) 🧵🧵