雨燕直播,NBA直播,世界杯直播,足球直播,台球直播,体育直播,世界杯,欧洲杯,苏超直播,村BA直播,苏超联赛,村超,村超直播腾讯研究团队训练了一个包含约300万对的大型平行语料库,该语料库来自五个主要来源:开源的Flores-200基准的开发集、以往WMT测试集、人工标注的普通话与少数民族语言对、使用DeepSeek-V3-0324生成的合成平行语料库以及用于增强模型对一般和翻译相关指令泛化能力的通用和面向机器翻译的指令调整数据集的20%部分。为提高训练数据质量,团队采用参考无关的质量估计指标CometKiwi和GEMBA对整个平行语料库进行评分,并过滤掉低于预定义质量阈值的训练样本。在GEMBA评分中,DeepSeek-V3-0324模型本身作为评估器。