《自然》杂志:未来当AI内容接管互联网,网络世界将变成一个垃圾场

生成式AI是一个“数据大胃王”,通过抓取大量在线内容学习如何创造类人内容,包括文章、评论等。

随着其广泛使用,AI开始从自己生成的内容中学习,导致输出质量下降。《自然》杂志的一项研究发现,当AI在大量AI生成内容上训练时,输出会迅速退化变得无意义。

在一个例子中,研究团队给了AI一个关于建造教堂历史的长提示,这会让大多数人觉得枯燥无味。在前两次迭代之后,AI吐出了一个相对连贯的回复,讨论了复兴建筑,有时会夹杂一些“@”。然而,到第五代时,文本完全偏离了原始话题,变成了关于语言翻译的讨论。

第九代的输出则荒谬至极:

“建筑。除了是世界上一些最大的黑色@-@尾兔、白色@-@尾兔、蓝色@-@尾兔、红色@-@尾兔、黄色@-@尾兔的家之外。”

IMG_256

这种“自我消化”现象不仅限于文本。多模态AI模型,如图像和视频生成模型,同样面临从网络获取的训练数据带来的挑战。这种情况可能导致AI模型崩溃,越来越难以生成有意义的内容。

AI的“幻觉”问题也越来越被关注。这种现象表现为AI在没有准确数据支持的情况下生成错误信息,例如医疗AI错误地诊断疾病。这些问题的根源在于AI模型在迭代训练中“遗忘”了先前的数据,类似于人类的记忆消退。

例如,在一项研究中,AI在初期能够关于建筑风格生成相对连贯的内容,但几代之后,输出内容完全偏离原始话题,变得荒谬。研究表明,AI在重复数据上的训练导致输出质量下降。

解决这一问题的方法之一是引入“水印”技术,通过数字签名帮助检测AI生成的数据,尽管这一策略还未普及。另一个策略是增加人类生成的数据在训练中的比例,以提高输出的连贯性。

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容