2023年弈衡通用大模型评测体系白皮书

2023-08-18 17:22:45 来源: 中国移动研究院
01大模型评测背景

1.1 大模型发展现状


(相关资料图)

随着大模型技术的快速发展,其巨大的参数量、计算量以及模型复杂度,在解决复杂任 务方面具有很大的优势,主要体现在强大的理解和生成能力、高度的泛化能力、优秀的可迁 移学习特性及端到端训练优势。大模型技术受到各类行业的广泛关注,通过将大模型与实际 业务相结合,可为用户提供更加个性化、更符合用户需求的服务。

随着大模型的发展,模型能力还将不断扩展,通过文本、图像和语音等多种形式。与更 多新兴的应用场景相结合,赋能千行百业。

1.2 评测需求

由于大模型高度复杂的结构,如何对其进行全面、客观的评测成为了一个亟待解决的问 题。与传统AI模型单一的应用领域相比,大模型在多任务和多领域方面展现出卓越的性能和 泛化能力。因此,针对大模型产品的评估通常需结合多种不同任务,从多个维度展开综合评 价。在现阶段的研究与实践中,大模型评测的主要需求包括但不限于以下几类:

文本类大模型:此类模型需要能够依据提示创作符合需求的文本内容,并依赖知识和文 本逻辑,推理并回答用户问题。在文本生成任务中,主要考察模型生成内容是否满足使用者 要求,并具备正确性、流畅性、规范性和逻辑性;在知识应用任务中,则需要模型覆盖尽可 能多的领域,并具备一定深度,同时还应具备对知识的理解与运用能力;在推理任务中,还 需对模型生成内容是否符合人类思维的判断、推理过程质量、推理过程与答案一致性、数值 计算正确性等指标进行评估。

图像类大模型:此类模型需要识别并定位图像中的各种物体,对其进行分类,并将不同 对象或区域分割开来,在此基础上,通常还要求模型根据给定的描述生成新的图像。在图像 分类任务中,核心指标包括分类的准确性、鲁棒性及对新类别的泛化能力;物体检测任务更 关注对复杂场景的处理能力和检测的准确率、覆盖率;图像分割任务更能体现模型对细节的 处理能力;对于图像生成任务,对于图像质量和创新型的评测需要更综合的评测方法。

语音类大模型:此类模型需要能够识别多种人类语音,实现文本和语音的双向转化。在 语音识别任务中,需要评估模型是否能够准确、高效地将人类语音转化为文字表达,关注模 型括识别准确率、噪声抑制效果、多语种处理能力等;在语音合成任务中更关注合成语音的 括语音质量、语音流畅度、音韵准确性等。

除上述几类模型中的评测需求之外,针对模型及产品的各项能力,还需探究大模型生成 结果的置信度、训练数据与生成结果的一致性、对生成内容的规划能力、噪声和扰动下的稳 定性、对于提示词的敏感性等传统NLP、CV及语音任务涉及较少的评测指标,形成更为标 准化和通用的解决办法。 大模型评测对于推动人工智能技术的发展具有重要的意义。一方面,通过对大模型性能 的评测,可以为模型优化和改进提供有力依据,从而提高其应用效果和商业价值。另一方面, 大模型评测可以了解大模型在不同行业的性能和适用性,促进人工智能技术在各行业的发展 和应用。此外,大模型评测还可以促进不同领域研究者的技术交流和合作,推动人工智能技 术的共同发展。

1.3 评测问题与挑战

技术发展日新月异,大模型评测需要与时俱进。随着人工智能领域的飞速发展,评测难 度也在逐渐增加。为了保障评测针对性和有效性,需要不断更新评测标准和方法。 首先,大模型复杂性对评测提出挑战。 随着人工智能不断发展,大模型复杂性不断增长,评测需求多样性更加显著。大模型涉 及到文本生成、问答系统、知识图谱、图像创作、语音生成等多个任务领域。如文章写作任 务中,模型的生成质量是重要指标之一,需要考虑到文本是否自然、流畅,是否符合语言规 范,是否有语法错误等。而图片创作任务中,图片的视觉效果、清晰度、色彩鲜艳度等是评 估模型性能的重要指标。面对以上问题,需要制定一套更为全面的评测体系,以全面评价模 型能力。

其次,大模型泛化性对评测提出更高要求。 大模型在很多任务上已经达到或超过了人类的水平,但在某些特定领域中,它们的性能 仍然有待提高。对于低资源任务,评测者需要关注模型在使用少量语料时的表现,需要考虑 到语言之间的差异性和复杂性,以便更好地评估模型在不同场景下的泛化能力。对于专业领 域任务,需要关注模型对领域特定术语、概念和规则的理解和应用,使用更广泛的数据集和 跨领域的评测任务,以确保评测结果具有泛化性和可靠性。

再者,大模型安全性也需要重点考虑。 数字化时代,攻击者可能会利用特定数据来攻击模型,或者破坏模型的性能。对抗性攻 击是一种常见的攻击类型,通过向模型输入有意制造的数据或恶意样本来欺骗模型或破坏模 型的性能。对抗性样本可以模拟现实世界中的攻击。如图像分类任务,针对正确分类的样本, 可以通过添加一些扰动来生成对抗性样本,导致模型对其错误分类。面对以上问题,需要考 虑各种攻击模型,并设计相应任务来评估模型安全性。 总之,随着大模型的不断发展和应用,评测工作所面临的挑战逐渐增加。需要重点考虑 多样性、普适性、客观性和公正性等评测需求,充分评估大模型的性能和潜力,为大模型技 术的进一步发展提供支持。

02大模型评测技术

目前,业界头部公司、主流科研机构和重点高校等权威组织对大模型评测技术开展了深 入研究,并通过技术报告、论文、行业标准等多种形式发布相关研究进展。本文主要参考 OpenAI、微软、斯坦福大学及清华大学等研究成果[1-9],对评测框架、评测指标、数据构 建方法进行了分析和总结。

2.1 主要评测方式

按照评测方式划分,业界常用的大模型评测技术分为客观评测及主观评价两种方式。 客观评测是大模型评测中常用的方法之一,适用于对模型性能进行定量评估,具有客观 性、可重复性和高效性等优点。客观评测内容通常包括模型的准确度、复杂度、训练时间、 模型大小等。这些指标的计算可以直接通过计算机程序进行,因此可以实现自动化评测,大 大提高评测的效率和准确性。 相比之下,主观评价更依赖于人类专家的经验和判断,对模型的表现进行主观评估和比 较,以确定模型优缺点和改进方向。主观评价通常包括生成内容流畅性、逻辑性和规范性等, 可以提供更加全面和深入的评估结果,弥补客观评测的局限性,但需要大量的时间和人力资 源。

2.2 典型评测维度

根据谷歌、微软、斯坦福大学、牛津大学、OpenAI等[10-16]机构的研究,可将大模 型评测技术按评测维度划分为四个类别:模型性能、模型泛化能力、模型鲁棒性和模型能效 等。 模型性能评测衡量模型在特定任务上的准确度指标,如准确率、召回率、F1 值等。 模型泛化能力评测旨在了解模型对未训练数据的表现,评估模型适应性和实际应用中的 性能,判断模型是否满足实际业务需求。 模型鲁棒性评测旨在评估模型面对数据扰动、噪声、对抗攻击等各类情况时的稳定性。

模型能效评测关注模型在训练和推理过程中的计算资源和时间成本,例如内存占用、计 算能力要求和能耗等。

2.3 常见评测指标

现有的大模型性能基准评测指标主要包括准确率、F1 值、EM值、BLEU、ROUGE、 METEOR、PPL、Pass@K、mAP、IoU、FID、WER、EER和碳足迹等。此外,在面对特定任务和大模型推理系统时,还可引入一些针对性较强的评估指标,如 功能正确性、任务成功率、推理链长度和多轮对话轮次等。这些特定指标结合起来有助于对 模型在特定场景下的表现进行更精细化的评估,从而为不同场景下的任务提供更具参考价值 的评测结果。

03评测原则

与传统模型相比,通用大模型在多任务、多领域上表现出强大的泛化能力和适应能力, 能够为各种应用场景提供智能化的服务和解决方案。为了保证通用大模型评测的科学性、有 效性和公信力,本文结合通用大模型的技术特点、应用需求、社会影响等因素,提出客观全 面、公平公正和用户视角三项评测原则。

客观全面 客观全面是评测的基本要求,为评估通用大模型的真实能力,在评测体系的设计、实施 和分析中需要采用严格的标准和流程,确保评测数据集的质量、评测任务的合理性、评价指 标的有效性、评测工具的稳定性等。

公平公正 公平公正是评测的根本要求,在评测过程中不受利益或情感的驱动和影响,不偏袒或歧 视任意参测产品,给予所有参测模型公平的机会和条件。为了保证公平公正性,在评测体系 的组织、管理和监督中需要采用开放、透明和协作的方式,确保评测规则的公开、评测结果 的公示、评测反馈的公开等。

用户视角 用户视角是评测的价值要求,从用户的需求、期望和体验出发,分析通用大模型对用户 的价值和意义,并结合任务特性,调整评测过程中对于准确性、可靠性、安全性等维度的权 重设置。 本文构建通用大模型评测体系主要遵循以上三个原则,力求形成一套科学、权威、开放 的评测体系,为通用大模型的技术创新和应用落地提供有力的支持和推动,促进人工智能技 术与社会需求之间的良性互动和协同发展。

04“弈衡”大模型评测体系

4.1 整体框架

中国移动技术能力评测中心构建了“弈衡”通用大模型评测体系,采用“2-4-6”层级 架构,包含 2 类评测场景、4 项评测要素以及 6 种评测维度,以全面、深入地评估大模型的 性能和应用能力。

随着人工智能技术的快速发展和大模型技术演进,大模型的评测需求也在不断变化。为 了能够全面、客观、公正地评价通用大模型,“弈衡”通用大模型评测体系在任务设置、数 据集构建、评价指标设计、评测平台搭建等方面将不断更新、完善,力求构建一个科学、权 威、开放的通用大模型评测标准,有效地促进通用大模型的技术创新和应用落地,推动人工 智能技术的发展和进步。

4.2 评测场景

鉴于大型模型展现出的多任务和多场景应用能力,对模型性能进行综合性评估通常需要 探究模型在多场景中不同类型任务上的表现。参考现有评测基准的研究与工作,依据模型执 行的任务性质、技术难度与复杂度、应用场景以及知识要求,可将评测任务分为模型基础任 务和大模型应用任务两大类。

基础任务 基础任务通常关注于自然语言处理、计算机视觉以及语音的基础技术,主要解决各类基 准任务问题。这些任务应用场景相对广泛,往往是为后续应用任务提供基础支持。这类任务 关注于解决相对明确且具有一定技术难度的问题,在很大程度上已经取得了较好的研究成果, 一般仅涉及计算机科学、数学、语言学、物理学等领域的基础知识。

除此之外,由于通用大模型涵盖了众多领域,能够完成多个研究方向上的不同任务,在 评测时还应包括情感分析、词义消歧、文本摘要、问答系统、深度估计、光流预测、超分辨 率、说话者识别、音频分类等多项任务,他们都是AI领域研究者们积极探索的关键方向。这些任务和对应的评估指标都能有效地衡量大模型在处理文本、图像和语音方面的性能,他们 共同形成了大模型为各种应用提供服务的能力基础。因此,针对这些场景的评估是对大模型 性能评估时一个基本的、不可或缺的环节。

应用任务 大模型应用任务主要关注于从整体上评估模型在特定领域或场景下的表现,这些任务需 要模型在多个基础任务,甚至多个学科的基础上,综合运用其能力。与基础任务相比,此类 任务通常更加具体化,在技术上涉及更高层次的认知能力以及更广泛的领域知识,能够反映 模型内置知识水平及推理能力。

在其他众多特定类型的应用任务中,还包括了一系列需要模型对输入的指令或内容进行 深入理解、推理并创造性地产出内容的场景。这类场景常常与具体的领域或者特定的行业紧 密相关,例如多模态内容的生成以及利用模型操控工具等。

4.3 评测要素

评测四要素包括评测方式、评测指标、评测数据以及评测工具。

4.3.1 评测方式

在测试样本构造方面,全面考虑零样本(zero-shot)、单样本(one-shot)、少样本 (few-shot)以及提示工程(prompt engineering)等评测方式;对于评测结果,根据是 否有标准答案,使用客观评测或主观评价进行评定。

评测样本构造方式 当前研究表明,随着模型参数规模的增长,尽管大模型在零样本任务中表现出了较高的 性能,但在单样本或少样本的情境下,模型的准确性明显优于零样本任务。另一方面,通过 对提示工程研究,研究人员发现大型模型在不同提示词下也会呈现出显著的性能差异。因此, 在评测方式方面,我们考虑了零样本、单样本、少样本以及不同提示词等提问方式,旨在全 面覆盖用户在实际使用过程中可能遇到的各种情境,以对模型性能进行全方位的评估。 零样本:在零样本测试中,模型在没有接触到与目标任务相关的样本的情况下,需要直 接解决任务。这类测试主要依赖于模型在预训练阶段获取的知识,利用已学到的知识和理解 推理能力去推断并解决新任务。

单样本:在单样本测试中,模型只接触到一个与目标任务相关的样本。模型需要在这个 样本的基础上学习任务的规律,并将这些规律应用到未见过的类似问题上。这类测试对模型 的泛化能力提出了更高的要求。 少样本:在少样本测试中,模型接触到有限数量的与目标任务相关的样本。通常,这些 样本数量很小,比如几个到几十个。模型需要在这些有限的样本上迅速学习任务的规律,并 在测试时将这些规律应用到新问题上。这类测试旨在评估模型在数据稀缺的情况下的学习能 力。

提示工程:这类测试关注如何构建有效的问题或指令,以便更好地评测模型生成能力的 潜力。在计算机视觉中,提示工程的概念不是非常明确,但可以理解为选择不同的输入内容, 以评价模型的输出表现。在语音模型中,提示工程的应用可能会比较隐晦,一些模型可以接 受类似于提示的输入,评测不同提示词下模型生成内容的表现。

评测结果判断方式 在评测结果的评定上,对于有标准答案的评测指标,比如准确率、召回率、F1 值、EM、 BLEU等,使用直接根据统计评价指标或评价模型计算出具体数值的方法客观评测。 对于没有固定标准答案的评测指标,比如文本生成的可接受度、机器翻译的可接受度、 内容创作的可接受度、毒害性、交互性等,采用主观评价的方法进行评定。主观评价将建立 一个由领域专家组成的评审团,基于评分标准对测试结果进行独立评分。

4.3.2 评测指标

在评估过程中,可以将评估指标划分为客观类和主观类。客观类指标主要用于评估具有 标准答案或相对标准答案的题目类型,同时也涵盖了效率相关的指标。这类评测指标主要依 赖于明确清晰的标准,因此其结果具有高度的可量化性和可比较性。对于开放型题目,主要 采用主观类指标,这类题目没有固定的或“正确”的答案,因此它们的评估需要更加灵活和 个性化的方法。虽然主观类指标的应用可能导致结果的可比性降低,但它能更全面和深入地 评估答案的有效性和优劣。

客观类 在针对大模型性能的评测过程中,输出结果可通过数据比较和算法计算的方式,采用如 分类准确率和F1 值等客观指标评估,来比较不同模型在性能上的差异。这样可以尽可能地 减少人为因素对测试结果的影响,实现评测结果的公平公正。 大模型性能评测的准确性指标按照任务性质,通常可分为分类任务指标和生成任务指标。

常用的分类任务指标包括准确率(Accuracy),召回率(Recall),精确度(Precision),F1 分数 (F1-score)和混淆矩阵(Confusion Matrix)等,主要应用于命名实体识别、图像识别和语音 情感分类等任务。这些任务要求模型对输入数据类别进行判断,例如,文本模型判断一段文 字所表达的情绪类型;图像模型判断图片中的实体与关系;语音模型识别语音中的情感或说 话人身份等信息。生成任务指标则主要应用于文本生成、图像生成和语音合成等任务。这些 任务需要模型根据输入内容生成符合要求的新数据,例如,文本模型生成一段逻辑连贯的内 容;图像模型生成包含多种元素的图片;语音模型根据文本生成人类语言的语音。

常见的生 成任务指标包括评价文本的BLEU、ROUGE和METEOR指标,评价图像的Inception Score 和FID指标,以及评价合成音频的语音质量和语音自然度。 稳定性和效率也是衡量模型能力的重要指标,如无效回答的次数、推理时延和系统功耗 等指标。稳定性指标主要关注模型在输入内容包含噪声、对抗样本等情况下的表现。评估稳定性时,可统计模型在连续回答过程中给出无效回答的次数,以及任务完成率等指标,这些 指标体现了模型在面对输入扰动时的鲁棒性。效率指标则关注模型在训练和推理过程中的时 延及能耗。时延指标主要计算模型理解输入内容并生成输出回答过程中所需的时间,该指标 可有效地评估模型在实时任务中的适用性。能耗指标则用来衡量模型在使用过程中的功耗需 求,这一指标在评估模型对硬件资源的需求和能源消耗量方面具有重要意义。

主观类 对于没有固定标准答案的题目类型,通常采取主观评分的方法进行评估。主观类指标涉 及到答案在创新性、可行性、适用性等多个维度的评价,这要求评估者拥有丰富的专业知识 和经验。因此,首先需要构建一个由领域专家组成的评审团。这些评审专家需要具备相关领 域的深厚知识背景和丰富的实践经验,以便精准地评估模型的回答质量。 在评估过程中,专家组需要经过讨论并达成一致的评分标准,对模型的回答进行评分。 这些评分标准包括但不仅限于:回答的准确性、完整性、逻辑性和可理解性等关键方面。为 了保证评估结果的一致性和可靠性,需要对各个评分等级设定明确的标准和分数范围。接下 来,多位专家将对每个问题的回答进行独立评分。

最后,需要对各位专家的评分进行汇总和分析,以统计模型在各项指标上的得分。在这 个过程中,可以采用各种统计方法和技术,如内部一致性检验和信度分析,以提高评估结果 的稳定性和信度。

4.3.3 评测数据

评测数据集需要覆盖广泛的自然科学和人文科学领域,从而确保模型在各个场景下都具 有较高的泛化能力。自然科学领域包括化学、计算机、生物、物理、天文、地理、医学、统 计、数学、会计、经济等,这些领域的问题往往涉及科学原理、数据分析和实验方法等方面; 而人文科学领域包括宗教、历史、社会、法律、心理、政治等,这些领域的问题则关注人类 文明、价值观念、社会制度和行为规范等方面。

数据集构造原则 评估数据集在构建过程中需遵循丰富性、公平性和准确性三大原则,以确保评估结果具 有广泛的适用性和可信度。 丰富性:为了全面评估模型在不同场景下的表现,评估数据集应当涵盖多样化的题型、语言类型和难易程度。 公平性:评估数据集应该具备问题和答案的可重复性,以便不同研究者在相同条件下进 行评估。 准确性:为了保证评测结果的准确可靠,要求在准备评测数据时,应采取一系列严格的 数据处理措施,包括数据清洗和筛选等,对其中的异常值、重复数据和错误进行检测和修正。

数据集构造方法 为了深入评估大模型的多元能力,我们根据评测框架所覆盖的各种测试场景,发展了各 种数据集的构建策略。这包括了对文本、图像和语音等基本能力场景的测试数据集,以及针 对学习能力和道德伦理等高级能力的评估。典型构造方法如下: 基础任务:在构建评估大模型的基础数据集时,需要考虑文本、图像和语音的各个任务 领域。文本类数据主要包括考察常识推理、闭卷问答、数学推理和编码能力等题目,旨在评 估模型的知识理解、推理及应用能力,对题目广度、深度和数据质量要求较高。

图像类测试 数据需涵盖图像分类、物体检测、实例分割、三维重建和图像生成等领域,构造时需通过不 同类型的标注测试模型进行识别、定位、理解和生成图像的能力。语音类测试数据则包括语 音识别、语音合成、情感识别、音频分类及语音转换等,需收集带有特定标签的语音数据, 以训练模型进行语音和文本的转换、情感和音频的识别及语音的转换。

应用任务:考察各类大模型在应用任务方面的能力,主要关注的是模型对新数据的快速 处理、理解和反馈的表现。文本类数据需要构造面向实时处理、理解和生成文本等方面的数 据,如社交媒体的情绪分析和主题检测,或聊天机器人的对话生成。图像类数据需要构造实 时视频流中的物体检测、识别、场景理解等数据,如路况预警或人机交互指令。语音类数据 需要构造面向语音识别、合成、情感识别等数据,例如电话接听服务中的语音输入理解和反 馈。

4.3.4 评测工具

为实现高效、准确、客观的评测大模型评测,需要研发相关工具完成评测工作,包括数 据管理,评测执行以及指标统计等功能,确保评测数据质量和可用性,提升评测执行效率, 保障评测结果的准确性。具体相关工具能力如下:

数据管理能力 数据管理能力包括基准数据库、数据清洗、数据编辑等功能,以帮助用户更好地构建和 选择数据集,确保数据集的质量,从而更好地评测大模型。相关功能具体描述如下: 基准数据库:基准数据库中应包含大模型评测各类型数据库,数据具有良好的质量和代 表性,基于基准数据库,方便用户能够快捷地构建一整套完整的数据集; 数据清洗:工具可提供一系列数据清洗功能,例如去重、去噪、去除异常值等; 数据编辑:支持数据集随机抽取及数据编排功能,用户可以根据自己的需要更加灵活地 构建自己的评测数据集。

评测执行能力 为了更加高效地进行大模型评测,评测工具支持通过自动化调用脚本进行大模型评测, 方便用户全自动完成评测过程。相关功能如下: 评测模型自动对接:工具提供常见模型接口调用脚本,用户可根据样例修改并生成被测 模型调用脚本,实现评测模型脚本化对接; 评测数据自动调用:工具支调用接数据管理模块中生成的各类评测数据集; 评测过程自动化:工具脚本支持评测过程中各类数据自动输入,自动记录输出结果,同 时记录测试过程中模型处理时间。

结果分析能力 除了支持评测过程自动化能力,工具还应提供测试结果分析功能,能够帮助用户快速实 现评测结果分析和比对,从而更好地理解模型的性能表现。具体相关功能如下: 评测结果自动比对:通过调用数据库,自动比对数据标注并进行测试结果判断; 评测维度自动分析:对模型各类指标如准确率、召回率、F1 值等实现自动统计,同时 对常见分析维度进行自动分析; 评测结论直观展示:根据分析结果生成可视化图表。用户可以从工具上直接直观地查看 评测结果和分析结论。

中国移动技术能力评测中心设计并实现“弈衡”大模型评测工具平台,具备强大的数据 管理功能,能够帮助用户快速构建评测数据集,支持自动化执行评测过程,同时记录评测结果并生成多维度的评测分析结论,方便用户准确地评估大模型性能。该评测工具平台专为大 模型评测而研发,平台的数据管理、评测自动化、结果分析自动化等功能,大幅提高了评测 效率和准确性,对于大型模型的评测和优化具有重要的意义。

4.4 评测维度

鉴于大模型在众多任务领域展现出卓越的通用性表现,现有专为单一任务设计的测试基 准和评价指标已不足以全面且客观地评估其性能。为了实现对这些复杂模型的全面评估,确 保覆盖各类任务类型和应用场景,该体系对评测指标进行了多维度划分,并力求涵盖用户实 际使用场景。 功能性:此维度主要关注大模型解决多种任务的能力。所涉及的任务类型包括各领域的 基准任务、垂直行业应用任务,以及跨领域多模态的复杂任务。在评估功能性时,任务丰富 度和支持完备度是其中最重要的两个方面。任务丰富度反映了模型能够涵盖的任务种类,而 支持完备度则指模型在处理各类任务时的完成度和复杂度。

准确性:此维度主要关注大模型在执行各类任务过程中的准确率。对于不同类型的任务, 衡量准确性的指标可能存在差异。除了有明确客观评价方式的任务外,一些生成类任务的指 标,如文本生成、图片生成、语音合成等任务,应在客观指标评价基础上,结合主观评价指 标。

可靠性:此维度主要关注大模型对输入噪声的抵抗能力,以及对同一问题多次输出结果 的稳定性等方面。主要考察模型对输入噪声的容忍度、对抗样本的抵抗能力、在不同数据集 和任务中的适用性,以及多次提问时模型回答内容的不确定性等。在此维度的评测中,除了 关注基于语法或语义、像素或图像特征、音质或语音产生的扰动,还应考虑数据集分布和数 据来源带来的潜在影响。 安全性:此维度主要关注大模型在生成文本时的毒害性和公平性,以评估模型是否能够 避免产生违法、违反道德、信息泄露或带有偏见的内容。涉及的内容包括但不限于:有毒害 性的表达、违反事实公平的描述、模型在不同群体间的表现差异、社会偏见以及刻板印象等。 此外,还需关注模型生成内容是否可能泄露用户隐私、商业机密或侵犯版权等问题。

交互性:此维度主要关注大模型与用户互动的能力,以评估模型产品的友好性。评估交 互性时,需要关注推理时延、对话连贯性、内容丰富度、表达流畅性、语法规范性、外部互 动能力以及工具应用能力等方面。在该维度的评估过程中,部分指标很难通过自动评估方法 准确衡量模型生成内容是否符合人类价值观和需求,因此人工评估仍被视为一种更直接且有效的评估手段。 应用性:此维度着重于探讨大模型产品或系统在现实应用场景中的部署、运维和业务支 撑能力,旨在全面审视基于大模型的产品在各方面的实用性与使用效果。

在评估此维度时, 需关注包括系统稳定性、可拓展性、推理能效、系统兼容性及个性化开发能力等多个领域。 然而,此维度中大部分评价指标很难通过自动化的客观指标来衡量,往往需要借助人工主观 评估、访谈调研等方式进行考察。因此,在此维度的评估过程中,如何建立公正、合理的评 价指标体系成为了其中最为严峻的挑战。 在评测过程中,稳定性、可靠性以及部分交互性指标应与准确性指标同时进行测试,以 研究它们与准确性之间的关联程度。这样可以评估模型在生成内容时,能否在多个维度指标 上同时具有良好表现,避免在测试中准确性较高,但稳定性和毒害性表现不佳的情况。

05大模型评测展望

随着互联网的高速发展和人工智能技术的快速演进,特别是随着大模型(如OpenAI的 GPT系列、百度的ERNIE等)取得显著进展,大模型成为计算机科学与人工智能领域的核心 技术之一,引起了国内外研究界和产业界的广泛关注。 目前大模型仍然面临许多需要关注的问题。首先,大模型在部分领域的准确性仍有待提 高。虽然目前大模型已经在各自的基准测试集上取得了优异的成绩,但实际应用中仍然存在 一定的差距。尤其是在金融、医疗、法律等特定领域仍然存在理解错误、结构模糊等问题, 这使得它们在这些领域的应用仍然受限。其次,大模型的安全性风险不容忽视。

随着其在自 动问答、内容生成等多种场景的应用,有可能产生错误或有害的信息。如实际应用中可能存 在产生虚假新闻、散布歧视性内容、宣扬违法犯罪、引导不当行为等潜在风险。再者,大模 型在特定行业的可解释性方面表现不佳。对于复杂的问题,尤其是涉及领域知识体系和逻辑 推理的问题,大模型往往不能给出详细的解释。同时,随着模型结构复杂度的增加和参数爆 炸,算法的可解释性、可控性越来越成为一种挑战。此外,大模型可能导致数据不平衡和偏 见问题,因为它们大多基于大量互联网文本进行训练,这些文本可能包含不平衡的数据分布 或固有的歧视倾向。

面对这些问题,大模型评测未来发展也值得探讨。未来评测技术研究重点可能聚焦以下 几个方面: 一是评测方法多样化。 在对模型性能进行评测时,不再只是单一地考虑模型在整体上的表现,而是要更加关注 模型在特定领域和任务上的性能。这就需要设计更为详细和多样化的评测标准,旨在发现模 型在哪些方面有优势,哪些方面存在不足,并针对性地进行改进。

二是行业大模型评测。 考虑到大模型在诸如金融、医疗、法律等领域的应用需求,针对不同领域的特点,开展 跨领域评测便愈发重要。这需要建立针对特定领域的数据集、评测指标等,在实际应用中发 现问题,以更好地推动大模型在各行业的应用。

三是关注安全性评估。 结合大模型在实际应用中面临的安全性问题,开展安全性评估,以及对抗样本生成等相关研究,是未来评测领域的一个重要方向。通过对模型的安全性进行评估,可以提前预警和 发现可能存在的风险,从而在实际应用中最大程度地保障信息安全。

四是可解释性评测研究。 针对大模型的可解释性和可控性问题,未来的评测研究可以更加关注模型内部的知识表 示和推理过程,结合可视化、模型分析等技术手段,探讨模型的逻辑关系、知识结构等,从 而为实用场景提供更加透明、可解释的输出结果。 中国移动技术能力评测中心,作为国内领先的中国移动的专业评测机构,多年来积累了 丰富的产品技术能力评测经验。经过深入研究和实践,希望通过构建“弈衡”通用大模型 “2-4-6”评测体系,为业界在大模型评测方面提供参考依据。诚挚邀请产业界相关企业和 研究机构加强交流合作,不断完善大模型评测体系,共同构建评测产业标准化生态,推动大 模型技术在产业中的成熟和落地应用,为推动整个行业的技术创新和发展贡献力量。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

标签:

2023年弈衡通用大模型评测体系白皮书

随着大模型技术的快速发展,其巨大的参数量、计算量以及模型复杂度,在

08-18 17:22:45

设施栽培与露地栽培的区别是什么(设施栽培与露地栽培的区别)

今天小鱼来为大家解答以上问题,设施栽培与露地栽培的区别是什么,设施

08-18 15:58:25

中银证券给予德赛西威买入评级,营收快速增长,智驾及网联业务稳步放量

每经AI快讯,中银证券08月18日发布研报称,给予德赛西威(002920 SZ,

08-18 14:57:37

赛维时代8月18日快速反弹

以下是赛维时代在北京时间8月18日13:11分盘口异动快照:8月18日,赛维

08-18 13:24:37

极氪欧洲战略再进一步:首批欧版001车型在宁波下线

极氪智慧工厂以行业领先的智能制造体系,全面提升产品品质,并为全球用

08-18 11:57:05

球迷热议欧足联最佳候选:梅西凭什么在❓维尼修斯被种族歧视了...

球迷热议欧足联最佳候选:梅西凭什么在❓维尼修斯被种族歧视了 ,欧足

08-18 10:23:57

蓝色的日子(关于蓝色的日子简述)

,你们好,今天0471房产来聊聊一篇色的日子,色的日子简述的文章,网友

08-18 09:21:20

第二十届“金基金奖”重磅揭晓 富国基金八度蝉联“金基金·TOP公司奖”

第二十届“金基金奖”重磅揭晓富国基金八度蝉联“金基金·TOP公司奖”

08-18 08:19:58

金达威(002626):8月17日北向资金增持4.49万股

8月17日北向资金增持4 49万股金达威。近5个交易日中,获北向资金减持的

08-18 06:34:56

手机wlan热点密码怎么查看(手机wlan热点)

来为大家解答以上问题,手机wlan热点密码怎么查看,手机wlan热点很多人

08-18 02:19:26

福建发力“新基建” 力争2025年5G用户普及率达70%

中新社福州8月17日电(记者龙敏)福建持续推动新型基础设施建设规模、能

08-17 22:16:16

河北平乡:改扩建校舍施工忙

↑8月17日,工人在河北省平乡县第四小学安装教室的照明设施。近日,河

08-17 20:59:04

江山股份(600389.SH):上半年净利润1.94亿元,同比下降84.03%

格隆汇8月17日丨江山股份(600389 SH)公布2023年半年度报告,报告期实现

08-17 19:12:33

创益通(300991.SZ):上半年净亏损1233.54万元

格隆汇8月17日丨创益通(300991 SZ)公布2023年半年度报告,报告期营业收

08-17 17:51:30

天键股份:公司主要产品为耳机等各类智能可穿戴产品

每经AI快讯,有投资者在投资者互动平台提问:董秘你好,贵公司产品能应

08-17 16:29:50

焊剂价格(焊剂烘箱)

很多人对焊剂价格,焊剂烘箱不是很了解那具体是什么情况呢,现在让我们

08-17 15:12:49

梅西让北美足球看起来很糟糕?前美国国脚:他在哪里都是如此

直播吧8月17日讯梅西加盟迈阿密国际以来表现炸裂,6场比赛攻入9球,不

08-17 13:37:56

城地香江股东沙正勇减持900万股

雷达财经文|林宜采编|深海8月15日晚间,城地香江发布公告,公司于当日

08-17 11:58:33

妖孽只在夜里哭2百度云 妖孽只在夜里哭2

1、这是夏七夕小说书《妖孽只在夜里哭》的歌,她自己作的词,但是没有

08-17 10:33:24

成都有家“无声餐厅”

■成都武侯区金花社区有一家“无声餐厅”,餐厅内的服务人员大多是聋哑

08-17 09:16:47

杭州清理网约车“一口价”;“花耶!”鲜花饼等19批次食品不合格

杭州清理网约车“一口价”;“花耶!”鲜花饼等19批次食品不合格,鲜花饼

08-17 08:18:40

【一级造价工程师】河北省2023年一级造价工程师考试考务管理

【一级造价工程师】河北省2023年一级造价工程师考试考务管理 网上课程

08-17 06:34:17

神魔大陆吟游诗人攻略(神魔大陆吟游诗人)

导读1、1、吟游诗人主要是加BUFF的,他们加的BUFF很好很强大,很黄很暴

08-17 02:26:31

张家界莓茶多少钱一斤(银环蛇多少钱一斤)

大家好,小乐来为大家解答以上的问题。张家界莓茶多少钱一斤,银环蛇多

08-16 22:10:06

电力网格服务站建到村口 四川荣县大屋坡村村民在村里就能充上电

彭宝俊封面新闻记者刘恪生“但师傅,我家鱼塘这几天总是莫名其妙地跳闸

08-16 20:55:22

迈腾空调不制冷 5053无故障码,迈腾空调不制冷

迈腾空调不制冷5053无故障码,迈腾空调不制冷迈腾是一款非常受欢迎的轿

08-16 19:10:38

亚洲大米价格在周三小幅走低 主要大米进口国正求建立国内库存

根据泰国稻米出口商协会的数据,亚洲大米基准品种泰国5%碎米在周三下跌

08-16 17:53:15

道县政协委员工作室联手开展开展“呵护水源、保护母亲河”活动

今日永州讯(通讯员何跃先)8月15日,道县政协清塘镇委员工作室、文艺

08-16 16:22:03

8月16日国内硝酸铵产业链部分价格上涨

产品8月15日8月16日涨跌幅单位:元 吨液氨3366 673366 670元 吨硝酸194

08-16 15:12:04

丘成桐:发展数字经济需打好数学基础,要产生有世界影响力的原创研究

南方财经全媒体见习记者马嘉璐汕头报道“发展数字经济离不开数学研究。

08-16 13:30:33

紫罗兰翡翠牌子

紫罗兰翡翠是一种珍贵的宝石品牌,专注于生产和销售高品质的翡翠首饰。

08-16 12:02:27

5G 下载速度创世界新纪录,只是为了下载电影快 10 秒?

作者|包永刚编辑|王川电影下载速度快10秒重要吗?大部分人应该会摇摇

08-16 10:40:05

怎么修改ie浏览器默认主页(如何修改ie主页)

1、首先双击桌面IE浏览器图标进入浏览器。2、浏览器界面如下。点击右上

08-16 09:26:56

离岸人民币汇率失守7.3 大幅下跌预期未现

截至8月15日19时,境内在岸市场人民币对美元汇率徘徊在7 2835附近,盘

08-16 08:15:16

湿地,需要这样珍爱

来源:人民日报海外版翠湖国家城市湿地公园风光。资料图片在翠湖国家城

08-16 06:25:19

苹果保修期内哪些免费更换_苹果保修期内哪些免费

苹果保修期内,有免费电池,显示屏,主板,碎屏,像素异常,摄像头错位

08-16 01:37:53

微视频|铭记历史 吾辈自强

78年前的8月15日,日本宣布无条件投降。先烈们浴血奋战的日子虽已远去

08-15 22:57:31

OPPO Find N3有1TB版本吗

oppo手机不仅在性能方面表现优异,而且在设计方面也经过精心的考虑和优

08-15 21:20:35

清润大地 共创美好——中国大地保险山东分公司扎实开展廉洁教育月系列活动

为深入学习贯彻习近平新时代中国特色社会主义思想,加强新时代廉洁文化

08-15 19:57:27

世体:魔笛对沦为替补感到很不满和沮丧,若无改善不排除冬窗离队

世体:魔笛对沦为替补感到很不满和沮丧,若无改善不排除冬窗离队,世体,

08-15 18:23:11

尚航科技入股大供应商子公司,双方数据披露有矛盾

来源:壹财信作者:江峥广州尚航信息科技股份有限公司(下称:尚航科技

08-15 17:23:05

“童言童语”议社区治理,虹口这里成立了“儿童议事会”

“可以通过社区微信群,交换闲置物品,减少楼道堆物”“希望大家在小区

08-15 16:18:07

河南回门什么规矩 河南回门有哪些讲究

河南回门乃婚礼重要环节,充满着浓厚的地方风情和文化内涵。不同地区可

08-15 14:57:12

2023年七夕适合生孩子吗

七夕情人节是一个比较重要的日子,也是我国的传统节日之一,这个时候会

08-15 13:28:14

全面完善外资政策 多部门详解新一批稳外资政策举措 基本情况讲解

1、全面完善外资政策2、多部门详解新一批稳外资政策举措3、以上就是关

08-15 12:15:30

设“24小时便利店”、带货特色农产品……“领跑县”是这样打造的

原标题:设“24小时便利店”、带货特色农产品……“领跑县”是这样打造

08-15 11:25:44

东吴证券给予天赐材料买入评级,2023年中报点评,近期获2份券商研报关注,目标均价涨幅46.44%

东吴证券08月15日发布研报称,给予天赐材料(002709 SZ,最新价:35 51

08-15 10:32:04

新疆青海等地有中到大雨 江南华南等地多分散性对流

人民网北京8月15日电(记者杨虞波罗)据中央气象台消息,未来三天,新

08-15 10:05:19

晨光股份08月14日被沪股通减持43.79万股

08月14日,晨光股份被沪股通减持万股,已连续3日被沪股通减持,共计万

08-15 09:05:16

2023年7月起亚SUV销量排行榜,智跑屈居第三

2023年7月的乘用车销量数据已经出炉,据众车网汽车行业数据监测显示,7

08-15 07:33:39

设施栽培与露地栽培的区别是什么(设施栽培与露地栽培的区别)
中银证券给予德赛西威买入评级,营收快速增长,智驾及网联业务稳步放量
赛维时代8月18日快速反弹
极氪欧洲战略再进一步:首批欧版001车型在宁波下线
球迷热议欧足联最佳候选:梅西凭什么在❓维尼修斯被种族歧视了...
蓝色的日子(关于蓝色的日子简述)
第二十届“金基金奖”重磅揭晓 富国基金八度蝉联“金基金·TOP公司奖”
金达威(002626):8月17日北向资金增持4.49万股
手机wlan热点密码怎么查看(手机wlan热点)
福建发力“新基建” 力争2025年5G用户普及率达70%
河北平乡:改扩建校舍施工忙
江山股份(600389.SH):上半年净利润1.94亿元,同比下降84.03%
创益通(300991.SZ):上半年净亏损1233.54万元
天键股份:公司主要产品为耳机等各类智能可穿戴产品
焊剂价格(焊剂烘箱)
梅西让北美足球看起来很糟糕?前美国国脚:他在哪里都是如此
城地香江股东沙正勇减持900万股
妖孽只在夜里哭2百度云 妖孽只在夜里哭2
成都有家“无声餐厅”
杭州清理网约车“一口价”;“花耶!”鲜花饼等19批次食品不合格
【一级造价工程师】河北省2023年一级造价工程师考试考务管理
神魔大陆吟游诗人攻略(神魔大陆吟游诗人)
张家界莓茶多少钱一斤(银环蛇多少钱一斤)
电力网格服务站建到村口 四川荣县大屋坡村村民在村里就能充上电
迈腾空调不制冷 5053无故障码,迈腾空调不制冷
亚洲大米价格在周三小幅走低 主要大米进口国正求建立国内库存
道县政协委员工作室联手开展开展“呵护水源、保护母亲河”活动
8月16日国内硝酸铵产业链部分价格上涨
丘成桐:发展数字经济需打好数学基础,要产生有世界影响力的原创研究
紫罗兰翡翠牌子
5G 下载速度创世界新纪录,只是为了下载电影快 10 秒?
怎么修改ie浏览器默认主页(如何修改ie主页)
离岸人民币汇率失守7.3 大幅下跌预期未现
湿地,需要这样珍爱
苹果保修期内哪些免费更换_苹果保修期内哪些免费
微视频|铭记历史 吾辈自强
OPPO Find N3有1TB版本吗
清润大地 共创美好——中国大地保险山东分公司扎实开展廉洁教育月系列活动
世体:魔笛对沦为替补感到很不满和沮丧,若无改善不排除冬窗离队
尚航科技入股大供应商子公司,双方数据披露有矛盾
“童言童语”议社区治理,虹口这里成立了“儿童议事会”
河南回门什么规矩 河南回门有哪些讲究
2023年七夕适合生孩子吗
全面完善外资政策 多部门详解新一批稳外资政策举措 基本情况讲解
设“24小时便利店”、带货特色农产品……“领跑县”是这样打造的
东吴证券给予天赐材料买入评级,2023年中报点评,近期获2份券商研报关注,目标均价涨幅46.44%
新疆青海等地有中到大雨 江南华南等地多分散性对流
晨光股份08月14日被沪股通减持43.79万股
2023年7月起亚SUV销量排行榜,智跑屈居第三
国能国际资产(00918)拟折让约19.37%配售最多约1.86亿股,净筹约3256.88万港元
X 广告
行业动态
X 广告

Copyright ©  2015-2032 华西植物网版权所有  备案号:京ICP备2022016840号-35   联系邮箱: 920 891 263@qq.com