GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!|动态
最差的人类语料,也要胜过AI生成的文本。
随着GPT-4、Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。
(资料图片)
甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?
然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。
也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。
因此研究人员呼吁,如果想要继续保持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。
论文地址:https://arxiv.org/abs/2305.17493v2
但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。
洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。
训练数据,都是「垃圾」
毫无疑问,现在的大语言模型已经进化出了相当强大的能力,比如GPT-4可以在某些场景下生成与人类别无二致的文本。
但这背后的一个重要原因是,它们的训练数据大部分来源于过去几十年人类在互联网上的交流。
如果未来的语言模型仍然依赖于从网络上爬取数据的话,就不可避免地要在训练集中引入自己生成的文本。
对此,研究人员预测,等GPT发展到第n代的时候,模型将会出现严重的崩溃问题。
那么,在这种不可避免会抓取到LLM生成内容的情况下,为模型的训练准备由人类生产的真实数据,就变得尤为重要了。
大名鼎鼎的亚马逊数据众包平台Mechanical Turk(MTurk)从2005年启动时就已经成为许多人的副业选择。
科研人员可以发布各种琐碎的人类智能任务,比如给图像标注、调查等,应有尽有。
而这些任务通常是计算机和算法无法处理的,甚至,MTurk成为一些预算不够的科研人员和公司的「最佳选择」。
就连贝佐斯还将MTurk的众包工人戏称为「人工人工智能」。
除了MTurk,包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心,能够提供创建、标注和总结各种数据的方法,以便进行调查和实验。
然而,来自EPFL的研究发现,在这个人类数据的关键来源上,有近乎一半的数据都是标注员用AI创建的。
论文地址:https://arxiv.org/abs/2306.07899v1
模型崩溃
而最开始提到的「模型崩溃」,就是在给模型投喂了太多来自AI的数据之后,带来的能够影响多代的退化。
也就是,新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误的理解。
更进一步,这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题,尤其是如果生成AI随着时间的推移学会在其响应中只生成某个种族,而「忘记」其他种族的存在。
而且,除了大语言模型,模型崩溃还会出现在变分自编码器(VAE)、高斯混合模型上。
需要注意的是,模型崩溃的过程与灾难性遗忘(catastrophic forgetting)不同,模型不会忘记以前学过的数据,而是开始把模型的错误想法曲解为现实,并且还会强化自己对错误想法的信念。
举个例子,比如模型在一个包含100张猫图片的数据集上进行训练,其中有10张蓝毛猫,90张黄毛猫。
模型学到的结论是,黄毛猫更普遍,同时会倾向于把蓝毛猫想象的比实际更偏黄,所以在被要求生成新数据时可能会返回一些类似绿毛猫的结果。
而随着时间的推移,蓝毛的原始特征在多个训练epoch中逐渐被侵蚀,直接从蓝色变成了绿色,最终再演变为黄色,这种渐进的扭曲和丢失少数特征的现象就是模型崩溃。
具体来说,模型崩溃可以分为两种情况:
1. 早期模型崩溃(early model collapse),模型开始丢失有关分布尾部的信息;
2. 后期模型崩溃(late model collapse),模型与原始分布的不同模式纠缠在一起,并收敛到一个与原始分布几乎没有相似之处的分布,往往方差也会非常小。
与此同时,研究人员也总结出了造成模型崩溃的两个主要原因:
其中,在更多的时候,我们会得到一种级联效应,即单个不准确的组合会导致整体误差的增加。
1. 统计近似误差(Statistical approximation error)
在重采样的每一步中,信息中非零概率都可能会丢失,导致出现统计近似误差,当样本数量趋于无限会逐渐消失,该误差是导致模型崩溃的主要原因。
2. 函数近似误差(Functional approximation error)
该误差主要源于模型中的函数近似器表达能力不足,或者有时在原始分布支持之外的表达能力太强。
众所周知,神经网络在极限情况下是通用的函数近似器,但实际上这种假设并不总是成立的,特别是神经网络可以在原始分布的支持范围之外引入非零似然。
举个简单例子,如果我们试图用一个高斯分布来拟合两个高斯的混合分布,即使模型具有关于数据分布的完美信息,模型误差也是不可避免的。
需要注意的是,在没有统计误差的情况下,函数近似误差只会发生在第一代,一旦新的分布能被函数近似器描述出来,就会在各代模型中保持完全相同的分布。
可以说,模型强大的近似能力是一把双刃剑:其表达能力可能会抵消统计噪声,从而更好地拟合真实分布,但同样也会使噪声复杂化。
对此,论文共同一作Ilia Shumailov表示:「生成数据中的错误会累积,最终迫使从生成数据中学习的模型进一步错误地理解现实。而且模型崩溃发生得非常快,模型会迅速忘记最初学习的大部分原始数据。」
解决方法
好在,研究人员发现,我们还是有办法来避免模型崩溃的。
第一种方法是保留原始的、完全或名义上由人类生成的数据集的高质量副本,并避免与AI生成的数据混合,然后定期使用这些数据对模型进行重新训练,或者完全从头训练一遍模型。
第二种避免回复质量下降并减少AI模型中的错误或重复的方法是将全新的、干净的、由人类生成的数据集重新引入训练中。
为了防止模型崩溃,开发者需要确保原始数据中的少数派在后续数据集中得到公正的表征。
数据需要仔细备份,并覆盖所有可能的边界情况;在评估模型的性能时,需要考虑到模型将要处理的数据,甚至是最不可信的数据。
随后,当重新训练模型时,还需要确保同时包括旧数据和新数据,虽然会增加训练的成本,但至少在某种程度上有助于缓解模型崩溃。
不过,这些方法必须要内容制作者或AI公司采取某种大规模的标记机制,来区分AI生成的内容和人类生成的内容。
目前,有一些开箱即用的解决方案,比如GPTZero,OpenAI Detector,或Writer在简单的文本上工作得很好。
然而,在一些特殊的文本中,这些方法并不能有效执行。比如,在EPFL研究中有ChatGPT合成的10个总结,而GPTZero只检测到6个是合成的。
对此,研究人员通过微调自己的模型来检测AI的使用,发现ChatGPT在编写本文时是最常用的LLM。
对于构建的检测AI数据的方法,研究人员利用原始研究中的答案和用ChatGPT合成的数据,训练了一个定制的「合成-真实分类器」。
然后用这个分类器来估计重新进行的任务中合成答案的普遍性。
具体来讲,研究人员首先使用真正由人类撰写的MTurk回应,和合成LLM生成的回应,来训练特定任务的「合成-真实分类器」。
其次,将这个分类器用于MTurk的真实回应(其中众包人可能使用,也可能没有依赖LLM),以估计LLM使用的普遍性。
最后,研究者确认了结果的有效性,在事后比较分析击键数据与MTurk的回应。
实验结果显示,这个模型在正确识别人工智能文本方面高达99%的准确率。
此外,研究人员用击键数据验证了结果,发现:
- 完全在MTurk文本框中写的总结(不太可能是合成的)都被归类为真实的;
- 在粘贴的总结中,提取式总结和LLM的使用有明显区别。
具体来讲,人工智能生成的文本通常与原始总结几乎没有相似之处。这表明AI模型正在生成新文本,而不是复制和粘贴原始内容的一部分。
「人类数据」很重要
现在,人们普遍担心LLM将塑造人类的「信息生态系统」,也就是说,在线可获得的大部分信息都是由LLM生成的。
使用综合生成数据训练的LLM的性能明显降低,就像Ilia Shumailov所称会让模型患上「痴呆症」。
而这个问题将会变得更加严重,因为随着LLM的普及,众包工作者们已经广泛使用ChatGPT等各种LLM。
但对于人类内容创作者来说,这是一个好消息,提高工作效率的同时,还赚到了钱。
但是,若想挽救LLM不陷于崩溃的边缘,还是需要真实的「人类数据」。
1. 人类数据在科学中仍然是至关重要的
2. 在合成数据上训练模型可能会带来偏见和意识形态永久化
3. 随着模型变得流行和更好/多模态,采用率只会增加
总的来说,由人类生成的原始数据可以更好地表示世界,虽然也可能包含某些劣质、概率较低的数据;而生成式模型往往只会过度拟合流行数据,并对概率更低的数据产生误解。
那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始训练数据的来源。
参考资料:
https://arxiv.org/abs/2306.07899v1
https://arxiv.org/abs/2305.17493v2
本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。
标签:
抢先读
- 五月天应援棒吸金700万,灯牌要被时代抛弃了吗?
- 安克创新:拟发行可转债募资不超过11亿元
- 世界观速讯丨人民财评:构建职业教育与产业发展相融互促的良好格局
- 黄冈市人大常委会到麻城调研租购并举住房制度和城市运营体制改革工作
- 环球聚焦:大学转专业:拒绝“一考定终身”18年之后
- 世界快播:广州交警:车陂路口发生一宗交通事故,肇事司机被当场控制
- 日本上半年流行语排行榜出炉!“蛙化”“蛇化”啥意思?中国网友不理解
- 拼了!全民“甬”闯“八八战略”知识竞赛_全球新资讯
- 荣威D7官图发布,将于今年年内上市_当前热闻
- 豪江智能跌7.22% 机构净卖出6963万元-天天动态
- 当前速递!徐汇新盘雍汇庭确认未触发积分,提前至6月25日开盘
- 刘芳菲为被川大张薇霸凌的同学发文,网友却说她纯粹就是蹭流量-全球今热点
- 爱心爆棚 青岛千人无偿献血庆节日 环球观热点
- 2023年上海杰出工程师选树活动启动_环球快播报
- 第六届2023STM32峰会在深圳重磅回归
- 食品加工制造板块跌0.4% 来伊份涨2.39%居首
- 天天观察:中央批准:郭永航任广东省委常委、广州市委书记
- 盘点《火影忍者》中六位不得善终的影们 环球观焦点
- 当前通讯!菲律宾投资及经贸政策交流会成功召开
- 当前头条:青平:推动公共教育优质均衡普惠民生
- 直击大湾区车展现场:千余款车型亮相 政府补贴1.5亿元 销售现场卖车忙
- 全球今亮点!6月16日预测:谨慎!钢价要...
- 飞鸟与射手歌词飞鸟与射手歌词是什么
- 全球快报:今日美元/日元汇率基本面分析及交易策略(2023年6月16日)
- 城地香江:公司目前自持3个数据中心项目
- 中原高速:5月份通行费收入为3.58亿元
- 每日讯息!普陀暑托班每个班招多少人?(招生规模)
- 伊能静回娘家露小蛮腰,与男摄影带女儿出游,乘出租车吃简陋小店
- 能链智电于翔:储能技术推动新能源充电服务升级转型
- 金沙江拉哇水电站正式启动大坝填筑
- 广宇集团为控股子公司借款进行担保 金额共计3000万元|每日看点
- 【环球时快讯】先正达IPO获上交所上市委会议通过
- 守住钱袋子 护好幸福家西安高新区开展“防范非法集资”集中宣传日活动-快看
- 焦点观察:亲子关系证明是什么 亲子关系证明是什么 独生子女
- 弗兰卡上海旗舰展厅开业丨探寻厨房未来趋势,创造精彩生活舞台
- 全球快播:农药经营许可证办理流程指南_农药许可证办理流程
- 美元兑换人民币最新汇率(2023年6月16日) 速读
- 微资讯!力勤资源(02245.HK):RKEF项目一期八条生产线均成功投产
- 速看:2023中国产业转移发展对接活动(河南)将举行
- 天天速看:最新消息!拆了!
- 赚回票价!小伙抢到比赛踢爆的足球紧抱不放,保安与球迷为争夺足球起冲突
- 2023郑州端午节限行规定
- 全球看热讯:减税、降息、发力信贷,发改委等四部门聚焦降成本
- Win11家庭版添加远程桌面的方法
- 时讯:创胜集团-B(06628)6月16日斥资7950港元回购1500股
- 长沙市公共卫生救治中心一期预计年底完工交付-全球热点
- 39.4℃!北京热到破纪录,明天高温继续 当前速递
- 邮储银行陇南市分行:“贷”动花椒产业 助力乡村振兴
- 2023年龙头企业进新疆对接活动启动 73家农业产业化龙头企业来疆考察对接 环球时快讯
- “三无六有女”?00后新择偶观引争议,“颜值再高我也看不上”
- 环球精选!快讯!华为申请蓝鲸应用商城商标
- 生态环境部:从未授权任何单位或个人开展“生态环境导向的开发(EOD)模式”项目相关活动
- 想要穿好欧美风真的不难!跟着欧美博主这样穿,简约大气又时髦
- “千万工程”20年 | 浙江:一枝花共富一方百姓
- 【聚看点】携带空间穿越七十年代txt下载_携带空间穿越七十年代
- 国足主帅扬科维奇:主场赢球感觉很棒,也会纠正一些细节,调整战术,三天后我们需要表现出进步_环球时讯
- 空调一直运转不停怎么回事(空调一直运转不停怎么回事儿)
- “这麦子地毯,比什么装修都好看!” 全球新资讯
- 爆款《羊了个羊》被质疑不算游戏?制作人回应:不算游戏更好|独家焦点
- 宁德时代等在珠海成立新基建公司_全球看热讯
- 新消息丨打好就业“组合拳”
- 环球今头条!汕头举办防台防汛应急演练
- 高盛:予保诚(02378)“买入”评级 目标价186港元
- 世界观焦点:便民服务在行动丨苏仙区卜里坪街道全力推广“湘易办”APP
- 五一去哪里旅游比较好(五一去哪玩最好?)
- 北京警方通报“球迷冲场拥抱梅西”:邸某某,18岁,已行拘_世界聚看点
- 南漳:竹编,是手艺,也是“守忆”!
- 社区电商转型新探索,10分钟送货到家 “蜂团到家”华东区战略发布会在杭召开
- 提升服务技能 助力经营发展|环球观速讯
- 新股日报:瑞星股份等今日申购|今日热搜
- 热点在线丨国资物企开始割肉了
- 多地网约车新增按下“暂停键”,灵活就业者还能入场吗?
- 简阳市举办艾滋病抗病毒治疗管理培训会
- GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!|动态
- 服务群众面对面 守护市民钱袋子 西安鄠邑区开展防范非法集资集中宣传
- 当前关注:中天金融预重整投资人招募和遴选截止时间延长至8月18日
- “动如脱兔”的哈弗赤兔如何打动人心
- 找工作遭遇性别歧视怎么办?上海妇女权益保障条例全方位保护“她”,一起来了解!
- 北交所龙虎榜|易实精密今日成交4987.03万元,换手率达22.74%|每日热议
- 环球今亮点!原创文章和返利机器人,双管齐下轻松赚钱
- 天天热文:40.9°C!避暑山庄是今天全国最热的地方
- 第二套人民币收藏价格(2023年6月16日)
- 《当代贵州》封面专题:链上产业|环球热议
- 2018有哪些二本会降分比较大云南投档|全球视讯
- 巧手童趣致敬父爱_世界时快讯
- 今日热议:威海市环翠区税务局:税企共建展交流 便民春风促发展
- 焦点快报!贵州新增4亿涉酒项目;国家级葡萄园区验收;北京中糖酒类公司股权转让
- 高质量发展调研行丨福建:重点流域生态补偿带来水清业兴
- 小米电视看电视直播怎么操作_小米电视看电视直播
- 试车日志|静态体验大众朗逸新锐 10万元燃油车再添一员
- 全球今头条!前海开源基金刘宏:看好生猪养殖和畜禽养殖板块
- 2023年06月16日19时43分澳大利亚元/人民币汇率最新报价|焦点热门
- 天天微资讯!假面骑士Geats第40话先行图公开,新GM意欲拉拢旧支持者
- 卓创资讯:白羽肉鸡6-7月市场行情或延续季节性下滑走势
- 因投顾业务存在营销误导性陈述等问题,联储证券重庆东湖南路证券营业部被责令改正
- 浙数文化今天涨停 四机构合计净买入约1.6亿元|世界快报
- 应用心理学可以考哪些大学 应用心理学学校排名
- 湖北交投京珠运营公司开展安全宣传咨询日活动 世界播资讯
- 公主岭市举办“安全宣传咨询日”活动
- 庆元县:文化礼堂为您送上一份健康饮水“小贴士”