大数据+大算力+强算法=大模子”是当前野生智能开展的次要手艺途径。言语大模子ChatGPT成为征象级使用,野生智能进入提高使用的新期间。
智源研讨院2020年搭建大模子攻关团队,2021年6月推出其时范围最大、机能抢先多模态大模子“悟道2.0”。为了鞭策大模子标的目的的协同立异,在“科技立异2030”新一代野生智能严重科技项目撑持下,2023年头,智源研讨院结合30多产业学研单元配合负担的旗舰项目“野生智能根底模子支持平台与评测手艺”片面启动。经2个月集合攻关,开辟出FlagOpen(飞智)大模子手艺开源系统,旨在打造片面支持大模子手艺开展的开源算法系统和一站式根底软件平台,撑持协同立异和开放合作,共建同享大模子时期的“新Linux”开源开放生态。
于英杰副市长指出,大模子的研发是一项系统化事情,触及数据、算法、算力及锻炼根底设备等。智源研讨院公布的FlagOpen大模子手艺开源系统,是智源及高低流生态协作机构结合展开手艺攻关的功效展示,为大模子手艺立异供给了“北京奉献”。同时,他关于大模子的开展提出了三点希冀:一是要捉住大模子开展时机,连结定力,强化根底。要聚焦泉源,立异底层手艺,鼎力打破中心枢纽手艺,抢占制高点。二是使用导向,鞭策大模子使用生态建立。要放慢大模子立异使用开辟及API效劳开放,构成数据飞轮效应,阐扬大模子的通用泛化才能,赋智经济社会开展。三是科研机构、企业等要环绕算法及手艺研讨、数据等增强协同立异,成立开源开放的协作生态。
梅建平副司长指出,面临大模子激发的野生智能手艺范式变化趋向,科技部从2021年开端超前规划大模子旗舰项目群,出力打造开源开放的大模子创重生态系统。“野生智能根底模子支持平台与评测手艺”旗舰项目是全部项目群的中心,由智源研讨院结合30多产业学研单元配合负担。FlagOpen大模子手艺开源系统便是旗舰项目标阶段性功效,将对我国大模子手艺立异才能的提拔供给主要支持。别的,为满意大模子开展所需的算力需求,科技部正在鞭策建立“国度大众算力平台”和“中国算力网”,为科技立异和财产智能化转型供给普惠算力。他同时指出,大模子开展需求手艺立异与伦理管理并重,科技部也将构造探究研讨大模子的伦理管理成绩,让大模子手艺趋利避害,更好地阐扬前沿手艺的赋能感化。
FlagOpen(飞智)大模子手艺开源系统是由智源研讨院与多家企业、高校和科研机构共建的一站式、高质量的大模子开源开放软件系统,包罗大模子算法、模子、数据、东西、评测等主要构成部门,旨在建立大模子范畴的“Linux”。
基于FlagOpen,国表里开辟者能够快速开启各类大模子的测验考试、开辟和研讨事情,企业能够低门坎停止大模子研发。同时,FlagOpen大模子根底软件开源系统正逐渐完成对多种深度进修框架、多种AI芯片的完好撑持,支持AI大模子软硬件生态的百花齐放。
FlagOpen将经由过程Linux基金会、启智社区等开源构造,鞭策国表里开辟者协同立异。经由过程开源开放方法,环球开辟者能够自在探究、配合奉献、协同立异。将来,FlagOpen也将支持环球AI企业、机构基于FlagOpen构建AI大模子软件刊行版本、平台、贸易软件等。
为低落大模子开辟和使用的门坎,进步大模子的开辟服从,智源研讨院打造了大模子算法、模子,及各类优化东西的一站式、高质量开源项目FlagAI。
FlagAI集成环球各类支流大模子算法手艺,和多种大模子并行处置和锻炼加快手艺,撑持高效锻炼和微调。
对峙开源开放道路,智源研讨院也连续将“悟道”大模子项目功效开源至FlagAI,包罗“悟道2.0”通用言语大模子GLM,“悟道3.0”视觉预锻炼大模子EVA,视觉通用多使命模子Painter,文生图大模子AltDiffusion(多言语),文图表征预锻炼大模子(多言语)、EVA-CLIP(英文),阿拉伯语大模子ALM,百亿言语根底模子CPM3等。
今朝,FlagAI曾经参加Linux基金会,吸收环球科研力气对大模子手艺配合立异、配合奉献。
AI硬件评测对AI生态有主要代价,但因为AI软硬件手艺栈异构水平高、兼容性差,使用处景庞大多变,给评测自己带来了许多应战。
FlagPerf期望配合探究开源、开放、灵敏、公平、客观的AI硬件评测系统,成立撑持多种深度进修框架、最新支流模子评测需求、易于AI芯片厂商插入底层支持东西的AI体系评测生态。不以排名为中心目的,而以供给行业代价、增进AI财产生态开展为愿景。
今朝该项目已和天数智芯、百度PaddlePaddle、昆仑芯科技、中国挪动等深度协作,配合促进AI硬件评测建立。环绕FlagPerf,也将有更多厂商和团队参加配合奉献的各人庭。
大模子时期需求科学、公平、开放的评测基准及东西来协助人们更深入的了解和熟悉模子,但在学术界不断缺少能涵盖多种模态范畴、多种评测维度的同一化评测系统和项目。特别在AIGC的开展海潮下,怎样对天生使命停止更高效、更客观的评价,是障碍大模子落地的主要限制。
智源研讨院将结合多个高校团队,配合打造笼盖多个模态范畴、包罗评测维度的评测东西FlagEval,探究大模子主动评测手艺,鞭策大模子手艺立异和财产使用。
FlagEval起首开放近期备受存眷的多模态范畴-CLIP系列模子评测东西,撑持多言语多使命、开箱即用。以后,更多范畴、更度的评测东西连续公布。
数据是野生智能范畴开展的根底要素之一。跟着大范围预锻炼模子及相干手艺不竭获得打破,在响应研讨中利用高效数据处置东西提拔数据质质变得日趋主要。
智源研讨院持久投入数据建立事情,构建了环球最大 WuDaoCorpora语料库,同时开辟了一批数据处置的高效东西。
FlagData数据东西开源项目集成包罗洗濯、标注、紧缩、统计阐发等功用在内的多个数据处置东西与算法,为天然言语处置、计较机视觉等范畴的模子锻炼与布置供给了数据层面的有力支持,有助于鞭策大模子的快速开展。
FlagOpen 大模子手艺开源系统正在与Linux基金会等环球开源代表构造与机构主动协作,放慢建立面向环球的大模子手艺开源生态。
环球最大的AI范畴开源基金会- Linux AI &DATA 基金会主席堵俊平以为FlagOpen大模子手艺开源系统的公布,是野生智能大模子时源创重生态建立的主要一步:“将来,大模子范畴必然会呈现相似Linux的开源生态系统,开源开放加快AI手艺立异。”
Stability AI 环球产物副总裁Christian Cantrell说:“我们在开源社区中与智源团队协作,基于FlagAI开源的多言语文图模子才能,协作打造撑持更多言语的分散天生模子。很快乐看到智源研讨院把大模子手艺系统开源,这对环球大模子立异的鞭策和开放协作非常主要”
本次公布会上,智源研讨院开放中文天下首个开放数据标注平台OpenLabel,与CSDN协作启动”数据飞轮”开放数据相助公益方案。方案以“我们的数据,我们的AI”为目标,让广阔群众发生的数据,造福于广阔群众。
“数据飞轮”方案的目的是建立静态开放的主要大型数据集,为大模子、AIGC开展创立丰硕威望的大模子锻炼数据滥觞。智源研讨院期望经由过程公益协作,夯实数据根底建立,增进数据立异,鞭策国表里大模子锻炼研讨开展。
为鞭策优良大模子手艺人材培育,智源研讨院与中国挪动研讨院、中科曙光、国度先辈计较太原中间协作,与多所顶尖高校联动,面向穿插学科布景门生与相干范畴学者推出大模子前沿锻炼营,经由过程举行系列野生智能前沿公然课、立异使用大赛与前沿讲习班,为大模子手艺研讨和财产开展培育具有实战经历的体系性人材。
智源研讨院院长黄铁军揭晓题为《放慢建立野生智能开源开放生态》的大旨演讲,他以为开源开放是智能时期的一定挑选。
大模子经由过程统一模子完成多场景使命,成为支持无数智能使用的根底平台,使得野生智能手艺的大范围使用变成能够,加快了智能时期的真正到来。当前深度进修阶段的野生智能体系具有难以透辟了解的手艺特征,智能时期不该封锁、必需开放、最好开源,出格是作为根底平台的大模子需求片面开源、承受监视,才气获得信赖、采用和普遍使用。
分离当下ChatGPT,黄铁军以为,此类AI征象只是大模子手艺“海平面以上”的冰山一角,深藏于“海平面以下”的大模子手艺系统才是更值得存眷的部门。从久远思索,打好根底,构成完好的大模子手艺系统及壮大的资本才能,将来才气发生更多的“ChatGPT级”的现场级使用。
FlagOpen恰是为了成立大模子手艺系统而展开的根底性事情,经由过程开源开放的情势增进各种机构共创同享,构成优良生态,配合打牢大模子开展根底。将来将面向各种企业供给大模子相干手艺效劳,支持各行业智能使用开辟,赋能经济社会智能化晋级。
为鞭策大模子手艺在更普遍的范畴获得使用,在财产中阐扬大模子的代价和感化,FlagOpen大模子手艺开源系统已与中国挪动、海潮信息、昆仑芯科技、天数等多家出名企业告竣生态协作,并将FlagAI开源东西布置在中国挪动九天毕昇教诲平台、海潮AI Station等平台。
为增进野生智能与经济社会开展深度交融,智源结合多家单元展开大模子行业使用探究,次要有:结合中国挪动研讨院成立AI根底模子效劳开放尝试室,面向行业使用处景的听觉内容阐发等范畴停止大模子研讨与使用;结合海潮信息成立大模子开源生态结合尝试室,配合鞭策国产AI硬件底层软件的完美;结合中国电子云成立大模子国产算力云平台开放尝试室,探究国产CPU的大模子适配布置;结合航天信息成立聪慧政企野生智能开放尝试室,探究税务、政务范畴的模子才能调优、模子研发、算法研讨等;结合工商银行共建数字金融开放尝试室,努力于使用AI手艺提拔金融生态垂直范畴智能化才能;结合启元天下成立认知决议计划大模子开放尝试室,探究AI NPC、数字人AI等场景的大模子使用;结合核桃科技成立国产3D图形化AI编程平台开放尝试室,配合展开基于开源系统的国产化编程平台东西研发。
为鞭策AI底层根底软硬件生态的共建同享和配合繁华,智源研讨院结合海潮信息、昆仑芯科技、壁仞科技、天数智芯、燧原科技、摩尔线程等硬件企业,清华大学、北京大学、中科院计较所劣势团队,共建“北京国度新一代野生智能立异开展实验区AI开放生态尝试室”,配合展开根底软硬件适配、评测等事情,006直播完成拉动根底软硬件对AI严重科研计较范式的优化,加快完美软硬件生态建立。