证明黑箱语言模型中的测试集污染

飞书用户2861

2024年8月3日修改

论文总结: 《PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS》

摘要

大规模语言模型（LLM）在互联网上的大量数据上进行训练，导致对其是否记住了公共基准测试集的问题引发了担忧和猜测。由于专有模型的预训练数据通常不公开，从猜测到证明污染存在具有挑战性。本文展示了一种无需访问预训练数据或模型权重即可提供测试集污染可证明保证的方法。通过测试数据集的交换性，利用语言模型对某些数据集排序的偏好来检测潜在污染。我们的方法在处理小数据集和少量参数模型时也能有效证明测试集污染的存在，并通过审计四个公开可访问的语言模型，发现污染的证据很少。​

引言

背景

•
问题陈述：大型语言模型在自然语言处理基准测试和专业考试中取得了显著进步，但其训练数据的最小策划引发了数据集污染的担忧，即预训练数据集包含了各种评估基准测试。​

•
目标：提供一种无需访问预训练数据或模型权重即可证明测试集污染的方法，以便更准确地理解语言模型的性能。​

研究动机

•
污染的影响：数据集污染导致难以理解语言模型的真实性能，例如它们是否仅仅记住了难题答案。​

•
当前挑战：预训练数据集通常不公开，且当前的过滤机制可能不完全有效，导致需要第三方审计工具来检测污染。​

主要贡献

•
交换性测试：利用数据集的交换性属性，提出一种通过比较数据集原始排序和随机排列后的模型日志概率来检测污染的方法。​

•
分片假设测试：构建了一种高效且强大的分片假设测试，显著提高了小p值的检测能力。​

•
实证展示：展示了我们的统计测试在检测小数据集和少量出现次数的数据集污染方面的敏感性和可靠性。​

方法

问题设定

•
高层目标：识别语言模型θ的训练过程中是否包含数据集X。我们的唯一方法是通过日志概率查询log pθ(s)来研究θ。​

•
假设检验：​
◦
H0：θ与X独立​
◦
H1：θ与X依赖​

基于交换性的检测

•
交换性属性：数据集的交换性表示数据集示例的顺序可以随意更改而不影响其联合分布。我们利用这一属性检测模型对特定排序的偏好。​

•
具体方法：​
◦
对于数据集X，我们计算每个数据点的日志概率log pθ(x)。​
◦
将数据集X进行随机排列，生成新的排列X'。​
◦
计算随机排列后的日志概率log pθ(X')。​
◦
比较原始数据集和随机排列后数据集的日志概率分布，显著差异表明可能存在污染。​

分片日志概率比较测试

•
核心思想：将数据集划分为多个小片段，并在每个片段内进行日志概率比较，最终通过t检验聚合这些结果。​

•
算法描述：​
◦
将数据集X分成m个子集，每个子集包含n个数据点。​
◦
对于每个子集，计算日志概率并进行随机排列。​
◦
对每个子集进行t检验，比较原始日志概率和随机排列后的日志概率。​
◦
聚合所有子集的t检验结果，计算总体p值。​

实验

预训练与有意污染

•
数据集与训练：使用Wikipedia和已知测试集组合训练1.4亿参数GPT-2模型，通过随机抽样和多次重复来验证我们的测试统计量。​

•
实验设计：​
◦
创建包含Wikipedia内容和已知测试集的数据集。​
◦
训练一个1.4亿参数的GPT-2模型。​
◦
使用分片日志概率比较测试检测模型是否记住了测试集。​

证明黑箱语言模型中的测试集污染​

证明黑箱语言模型中的测试集污染