当前位置: 主页 > 实时新闻 >

    大模型价值跃升“赛点”:算力还是数据

     时间:2023-07-10 12:36  

      2023世界人工智能大会期间,有人直言,没有大算力做大模型就是天方夜谭。但也有人认为,数据要素在人工智能大模型的发展中具有关键性作用,决定了模型的训练质量、性能表现和应用领域的广度与深度。

      全球大模型群雄逐鹿,算力最先告急。今年5月29日,英伟达创始人黄仁勋断言,“我们已经达到生成式AI引爆点,从此全世界的每个角落都会有算力需求”。一天后,英伟达市值突破万亿美元,屹立世界之巅。

      人们常把算力、算法、数据形容为人工智能的三驾马车,但这三驾马车之间可能也不是完全的并行关系。如果说算力是大模型的“根”,那数据或者说是高质量的语料库,或许就会成为算力的“根”。

      一热一冷

      大模型浪潮,率先将算力推至风口浪尖。2023世界人工智能大会上,算力成为大模型绝对的关键词之一。中国工程院院士、鹏城实验室主任高文把算力比作电力,认为没有大算力做大模型就是天方夜谭。华为轮值董事长胡厚崑也提到,大模型训练的效率或者是创新的速度,根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。

      大会期间,毕马威与联想集团联合发布《普慧算力开启新计算时代》报告。毕马威中国数字化赋能主管合伙人张庆杰在解读报告时提到,算力供给增速明显难以满足指数式爆发的需求,储备算力成为各行各业的必要举动。

      据了解,深度学习出现之前,用于AI训练的算力增长大约每20个月翻一番;之后,用于AI训练的算力大约每6个月翻一番;2012年后,全球头部AI模型训练算力需求更是加速到每3-4个月翻一番,即平均每年算力增长幅度达到惊人的10倍;目前大模型发展如火如荼,训练算力需求有望扩张到原来的10-100倍,算力需求的指数级增长曲线将更加陡峭。

      大模型对算力的需求是显而易见的,但更关键的点可能在于是否能把算力更高效地挖掘出来。一家芯片企业的技术人员对北京商报记者提到,一个模型上线需要用到很多硬件,如果只支撑了少量用户,就会因为太贵导致用户不买账,由此撑不起正向循环的情况,但太便宜又会出现亏本的问题。特别是到落地阶段,如何能够结合模型上的一些改进,把硬件的特性最大程度地发挥出来,就会变得非常重要。

      “也就是说在训练阶段,大家对算力的追求可能是‘大’,这一方面能够做出更大的模型,另一方面也能够进行更快速的迭代。但到用户开始接受这个效果的时候,就要涉及到怎样做才能更划算的问题,也就是说在部署阶段,可能要更关注‘精’的问题,尽可能用相对少的算力实现最大程度的作用。”上述技术人员说道。

      大会期间,比起对算力的探讨,数据就显得有些“冷清”了。“数据要素比大模型早好几年,大模型被‘炒’起来了,但数据要素却一直不温不火。”7月8日,在2023世界人工智能大会“大模型时代下的数据要素流通”论坛的主题演讲中,拓尔思总裁施水才开场便提出了这样一种现象,在他看来,这场论坛为人们认识数据要素流通提供了一个新的视角。

      机遇与挑战

      在上述论坛上,中国知网副总经理张宏伟表示,数据是人工智能的基石,数据的质量和数量最终决定人工智能水平高低,影响其安全性、可信性。施水才更是认为,高质量数据才是大模型价值跃迁的制胜法宝。

      但当下的问题在于,数据并不都是高质量的。过去一段时间,一度出现“AI正在污染中文互联网”的讨论,而AI最让人诟病的就是“幻觉”问题,也就是人们常说的“一本正经地胡说八道”。

      大模型“幻觉”也是人工智能大会期间被提到的高频词汇。施水才对北京商报记者提到,“幻觉”问题的出现,主要是因为大模型缺乏理论的支撑,因为其核心技术原理主要就是Transformer架构下的Next Token Prediction,即“下一个字符的预测”。另一方面大模型并不是越大越好,数据也不是越多越好,真正好的大模型是参数大小适中,数据高质量。

      算力可以堆硬件,相比起来,优质数据的供给可能会复杂得多。中国电子副总经理陆志鹏提到,大模型技术实现高质量发展,数据有效供给是关键,急需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。

      在接受北京商报记者采访时,上海数据交易所副总经理韦志林提到,从推动数字经济,推动数据作为生产要素的角度看,数据应该是最核心、最长远、最基础性的因素。“大模型的预训练对数据要求也特别高,必须在前期进行清洗、标注、标识,但围绕千行百业的数据训练,在数据供给方面也呈现出了许多问题和挑战。”

      首要的就是头部厂商并不愿意开放数据。数据是生产要素,数据有价值,这些已经达成共识,但进行数据共享就一定会牵扯到安全问题,如何解决数据在共享过程中的安全机制至关重要。而数据的开放流通,也自然涉及收益分配,且数据流通过程中创造的新价值更多服务于企业内部,拿出去的动力还需进一步培育。

      “所以从数据流通本身看,更多压力还存在供给侧这一方面,需要解决供给侧产权制度问题、收益分配制度问题、安全问题、基础设施问题等,让数据流通更加便捷、更加合规。”韦志林表示,上海数据交易所作为国家战略的承接者,需要解决的就是这些问题。

      据了解,7月8日,上海数据交易所启动语料数据生态创新合作伙伴计划,而在此前一天,上海数据交易所官网刚刚正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。

    (责任编辑:王晨曦)
  •  
落马一年后贵州银行原董事长李志明被公 打盗版就像“打地鼠”:网上盗版书为何 国家发展改革委:今冬明春供暖季能源供 党建引领 躬身入局 金融助力“老字号” 证监会:打击上市公司财务造假,前10个 中亚天然气管道累计向我国输气超5000亿立 浦发银行携手敦煌研究院 打造金融文化创 财政部决定开展国债做市支持操作 塞尔维亚旅游局:中国游客数量同比增长 中国心梗救治日:专家提醒重视胸痛症状 截至11月13日全国已交付285万套 各地保交 八马茶业受邀亮相巴西 助力“茶缘·中巴 2批2025年度以工代赈中央专项投资共90.5亿 海尔消费金融完成股权调整:海尔集团持 证监会:打击财务造假 今年前10个月罚没 中行北京分行开展“支付便利,谨防风险 瑞众保险:厚植民生福祉,为实体经济发 闭店不能损害消费者权益 欧洲氢能周开幕 聚焦氢能产业创新应用 新质工业·美好世界 第十七届中国工业论 【图解】从多个“首次”看中国经济企稳 石药集团实力荣膺两项ESG荣誉 风雨再起的双11,为何领跑的总是蓝月亮 到底什么算普宅和非普宅?一次性给你讲 有购房者申请住房契税退税成功?个别地 共赴美好数字未来:我国积极推动全球互 创新3D虚拟人交互方案受认可,Soul App多模 九号长沙运营中心获“安全生产经营标杆 20个项目获世界互联网大会领先科技奖 新加坡交易所迎来首只熊猫债 丽水启动“三江口”数智经济财产园暨“ 多项税收政策调剂 进一步激活改良型住房 梁光烈同道生平 国度发改委:11月、12月经济运行有看延续 汽车以旧换新补助申请量共冲破400万份 喷鼻港“串谋倾覆国度政权罪案”宣判 国防部:水兵舰艇编队将拜候喷鼻港 “中国·唐——一个多元开放的朝代(7至 查察机关依法对王宜林涉嫌纳贿案提起公 全文来了!习近平在二十国团体带领人第 梁光烈同道尸体在京火葬 欧国联-葡萄牙1-1战平克罗地亚携手晋级 欧国联-萨拉戈萨尽杀 西班牙3-2瑞士整年 ATP复活气力总决赛排名更新 商竣程位列第 国足主帅伊万科维奇:得意球队前五轮体 丁浩闯入三星杯世界围棋年夜师赛决赛 2024WTT福冈总决赛赛程直播时间表 男女单 迎来“本钱盛宴” 主动驾驶企业竞速下半 力帆新能源汽车由10亿元减资至520万元 新能源二手车单月买卖已超10万辆 谁是采 国度市场监视办理总局:10月6家车企颁布 全擎投进,诠释“精准用油”新主张!第 愈来愈多拉美司机爱开中国车 英菲尼迪或将遏制国产 广州车展打响收官之战:国产豪车冲百万 三代护林人的绿色坚守 习近平主席这样谈全球互联网发展治理 “万宜”趋近海南岛东南部 多地将有风雨 编造“惠州大亚湾发生爆炸”不实信息, 赛程对国足不算有利,今晚要给日本队上 日月视频 手机版 欧歌影视仓 免费版 大吉订购 最新版 月光影视仓 手机版 比目鱼影视 官方版 南柯电影网无广告 最新版 巴黎直播 手机版 91日剧 手机版 月兔直播 免费版 泰剧兔官网 免费版 小鱼影视2024 官方版 谷歌街景地图 手机版 dj打碟机模拟器 最新版 嘿嘿动漫 最新版 影视工场播放器 手机版 风筝影视 最新版 星空动漫 最新版 七星直播t 官方版 逗猫动漫 官方版 蜜果酱直播 免费版 河狸影院 最新版 高德地图车机 免费版 花火影院 手机版 hifi音乐电视免费版 松果影视 最新版 今日头条2024 最新版 白泽影视t 最新版 巴士影院 最新版 洋葱T直播 手机版 忍者必须死3vivo免费版 魔剑奇兵折扣官方版 忍者必须死3官服2024官方版 口袋进化微信登录手机版 口袋进化vivo最新版 口袋进化qq登录本官方版 口袋进化应用宝最新版 口袋进化OPPO渠道服官方版 口袋进化小米免费版 555电影正 官方版 天天趣玩红 最新版 地球影视 官方版 小柠檬影视 手机版 电影猎手追剧 免费版 B次元官网正式 免费版 两年半社区安装 最新版 小柚子影视 免费版 姐衣yw二手衣物 最新版 达达龟影视 最新版 乐享音乐 官方版 暖光影视 免费版