配资市场零一万物黄文灏：互联网中已有大量AI生成信息，有益于大模型训练 - 炒股免费配资开户_正规股票配资官网

你的位置：炒股免费配资开户_正规股票配资官网_股票10倍杠杆平台 > 股票10倍杠杆平台 >

股票10倍杠杆平台

配资市场零一万物黄文灏：互联网中已有大量AI生成信息，有益于大模型训练

发布日期：2024-08-02 22:00 点击次数：141

配资市场零一万物黄文灏：互联网中已有大量AI生成信息，有益于大模型训练

　　记者肖潇北京报道

反击战打响后，陈书利所在的部队，奉命执行穿插任务，穿插到越军后面，阻断敌人的退路。

　　大模型的训练数据会不会耗尽？在本月更新的一项研究成果中，研究机构Epoch AI抛出了一个残酷的现实：他们估测目前人类生成的公开文本总量约为300万亿个Token，但使用数据的速度远远超过了生成数据的速度，这意味着大模型将在2026年至2032年之间消耗完所有可用数据。

　　训练数据对大模型的重要程度无需赘述。6月14日，零一万物联合创始人黄文灏在北京智源大会分论坛“大模型产业技术”中表示，所有团队都非常重视数据。黄文灏举例说，在自己加入零一万物的前三个月，团队几乎没有进行模型训练，大部分时间都用来做数据处理的相关工作。“在数据足够ready(准备充分)的情况下，我们发现模型基本一次就能训练出来，而且在同等参数的情况下会比其他有效训练的效果更好。”

　　对于数据耗尽的“卡脖子”问题，黄文灏持乐观态度。他解释，一方面他们发现目前的数据增长速度比预期快，特别是大模型流行后，网络上出现了更多大模型生成的信息；此外，合成数据的有效性正在被许多团队验证，是一条可行路径。

　　一个有趣的发现是，FineWeb上个月发布的一篇技术报告显示，使用2024年爬取的数据集比2023年数据集的训练效果更好，而且这可能说明大模型生成的信息并非在“污染”数据池，反而在提升数据质量。

　　 FineWeb是开源社区Hugging Face规模最大的数据集，这份技术报告分别用近十年爬取的网络数据集训练一个1.8B参数的大模型，结果发现，不同年份的数据训练出的大模型性能有明显不同——比如2022年、2023年、2024年的数据集，训练效果明显一年比一年好。FineWeb暂时没有找到关键原因，不过研究者统计发现，自从2022年12月ChatGPT发布以来，互联网中AI生成信息的含量在急剧上升，他们猜测是AI生成信息提高了数据集的质量。

　　“这从侧面验证了我们用大模型产生的数据去训练大模型，是可以不停提高大模型性能的。”黄文灏说。不过FineWeb也提醒，这一结论目前只适用于参数较小的模型，AI合成数据能不能提高参数较大的大模型性能还有待验证。

　　还需要注意的是，尽管有益于大模型本身的训练，但不见“活人”只见AI的互联网大概率不会带来一个好的用户体验。今年谷歌搜索的算法下调了AI生成内容的曝光率，此前也在测试中发现，AI搜索无法分辨AI生成的虚假内容，让网络信息更加难以溯源。

　　此外，黄文灏还提到了多模态数据集的作用。业内普遍认为文本、视觉、听觉等结合的数据集能弥补纯文本数据匮乏的问题，黄文灏表示，零一万物在训练多模态大模型的过程中配资市场，发现多模态数据不仅仅能扩展AI的基础性能，而且能真正提高AI的智能化程度，也会是应对数据瓶颈的一条解题方法。

上一篇：大众配资安全吗二读缠论笔记——定律的不完全总结

下一篇：股票杠杆t+0平台交易 2024年6月22日全国主要批发市场黄牛价格行情