大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。当前行业大模型训练语料存在覆盖面不全、准确性不足、时效性不够等问题,导致大模型通常难以达到预期目标。实践经验表明,即使模型参数量级有所下降,只要数据语料质量足够高,其表现依然不俗。
为进一步提升大模型在行业的应用范围和应用成效,需统筹行业力量搭建社区平台,拓宽语料来源,构建语料标准规范,开展语料治理,保障语料安全,为大模型训练及应用提供满足业务场景需求,具备行业特性和标准化的高质量语料。
语料的范围