炒股免费配资开户_正规股票配资官网_股票10倍杠杆平台

股票10倍杠杆平台
配资市场 零一万物黄文灏:互联网中已有大量AI生成信息,有益于大模型训练
发布日期:2024-08-02 22:00    点击次数:141

配资市场 零一万物黄文灏:互联网中已有大量AI生成信息,有益于大模型训练

  记者肖潇北京报道

反击战打响后,陈书利所在的部队,奉命执行穿插任务,穿插到越军后面,阻断敌人的退路。

  大模型的训练数据会不会耗尽?在本月更新的一项研究成果中,研究机构Epoch AI抛出了一个残酷的现实:他们估测目前人类生成的公开文本总量约为300万亿个Token,但使用数据的速度远远超过了生成数据的速度,这意味着大模型将在2026年至2032年之间消耗完所有可用数据。

  训练数据对大模型的重要程度无需赘述。6月14日,零一万物联合创始人黄文灏在北京智源大会分论坛“大模型产业技术”中表示,所有团队都非常重视数据。黄文灏举例说,在自己加入零一万物的前三个月,团队几乎没有进行模型训练,大部分时间都用来做数据处理的相关工作。“在数据足够ready(准备充分)的情况下,我们发现模型基本一次就能训练出来,而且在同等参数的情况下会比其他有效训练的效果更好。”

  对于数据耗尽的“卡脖子”问题,黄文灏持乐观态度。他解释,一方面他们发现目前的数据增长速度比预期快,特别是大模型流行后,网络上出现了更多大模型生成的信息;此外,合成数据的有效性正在被许多团队验证,是一条可行路径。

  一个有趣的发现是,FineWeb上个月发布的一篇技术报告显示,使用2024年爬取的数据集比2023年数据集的训练效果更好,而且这可能说明大模型生成的信息并非在“污染”数据池,反而在提升数据质量。

   FineWeb是开源社区Hugging Face规模最大的数据集,这份技术报告分别用近十年爬取的网络数据集训练一个1.8B参数的大模型,结果发现,不同年份的数据训练出的大模型性能有明显不同——比如2022年、2023年、2024年的数据集,训练效果明显一年比一年好。FineWeb暂时没有找到关键原因,不过研究者统计发现,自从2022年12月ChatGPT发布以来,互联网中AI生成信息的含量在急剧上升,他们猜测是AI生成信息提高了数据集的质量。

  “这从侧面验证了我们用大模型产生的数据去训练大模型,是可以不停提高大模型性能的。”黄文灏说。不过FineWeb也提醒,这一结论目前只适用于参数较小的模型,AI合成数据能不能提高参数较大的大模型性能还有待验证。

  还需要注意的是,尽管有益于大模型本身的训练,但不见“活人”只见AI的互联网大概率不会带来一个好的用户体验。今年谷歌搜索的算法下调了AI生成内容的曝光率,此前也在测试中发现,AI搜索无法分辨AI生成的虚假内容,让网络信息更加难以溯源。

  此外,黄文灏还提到了多模态数据集的作用。业内普遍认为文本、视觉、听觉等结合的数据集能弥补纯文本数据匮乏的问题,黄文灏表示,零一万物在训练多模态大模型的过程中配资市场,发现多模态数据不仅仅能扩展AI的基础性能,而且能真正提高AI的智能化程度,也会是应对数据瓶颈的一条解题方法。