一家叫RapidFire AI的初创公司,发布了一个开源的大说话模子微调引擎开云体育,能让你的单个GPU同期并行跑上多个任务,把实验计划量径直干到了惊东谈主的20倍。
这事儿是谁干的?
RapidFire AI这家公司背后站着一位关节东谈主物,阿伦·库马尔(Arun Kumar),他是加州大学圣迭戈分校(UCSD)狡计机科学与工程系的证明。库马尔证明在数据库系统、机器学习和大边界数据料理这些边界有很深的功力,而RapidFire AI引擎里最中枢的阿谁“超并行交流”和“动态截止”期间,表面基础就来自他的商讨后果。
是以,这是正经八百的学术商讨转变。库马尔证明在公司里担任麇集创举东谈主和首席期间官(CTO)。
团队里还麇集了来自亚马逊蚁集就业(AWS)、顶尖AI商讨机构和科技巨头的工程师与科学家。
伸开剩余88%声威挺豪华的。
RapidFire AI在本年拿到了一笔400万好意思元的pre-seed轮融资。领投的是.406 Ventures,一家专注于早期科技投资的闻明风投;还有AI Fund,这个基金的麇集创举东谈主是大名鼎鼎的吴恩达;此外还有Osage University Partners,这家机构专诚投资高校的科研后果转变模样。
它到底解决了什么要命的问题?
思让一个通用的LLM(比如LLaMA)在你的专科边界(比如金融、医疗)更好用,就得对它进行微调。微调就像是给一个通才大学生进行专科培训,让他成为人人。
你需要诊治一大堆参数。比如,目下很火的低秩自符合(LoRA)期间,它的“秩”该设成若干?模子的量化决策怎样选?给模子的指示,也即是提醒(prompt)结构怎样想象?还有学习率这些超参数,以及强化学习里的奖励函数怎样定?
这些配置项罗列组合起来,可能性多到无法思象。
而GPU资源贵重又有限,全球频频只可搞“串行实验”。什么真谛呢?即是一次只跑一个配置,跑结束,望望终端,再换下一个。这就像一条单车谈,通盘车都得列队,服从奇低。好多有后劲的优化决策,可能因为排不上队,就永远被错过了。
还有一个痛点是,实验一朝跑起来,你就像个局外东谈主。眼睁睁看着某个配置的逝世(loss)居高不下,清爽是个“差生”,却没宗旨坐窝叫停它。反过来,看到一个进展优异的“勤学生”,思坐窝复制它的顺利教学,微调一下参数再多开几个肖似的实验,抱歉,也作念不到。你得等这轮跑完,手动操作,再重新列队。
这即是现时LLM微调边界的广泛窘境:配置复杂、实验串行、资源应用率低,何况枯竭动态调控的技能。
RapidFire AI这个开源引擎,即是来系统性地解决这些问题的。
20倍计划量的机要火器
RapidFire AI的中枢期间,不错玄虚为:超并行推行、及时动态截止、自动GPU优化。
最中枢的更动,叫“超并行推行”。传统的微调是单车谈,RapidFire AI径直把它改形成了二十车谈的高速公路。它是怎样作念到的呢?关节在于两个操作:数据分块和适配器热交换。
领先是把你的试验数据切成一小块一小块的,叫数据块(chunk)。然后,你不错相连提交一大堆不同的微调配置,比如20个。引擎里的交流器(Scheduler)会至极智能地把这些不同的配置任务,分派到你的GPU上。
最妙的地点在于“适配器热交换”。在试验经由中,当需要切换不同配置时(比如从LoRA秩为8的配置切换到秩为16的配置),系统不需要傻乎乎地把通盘雄伟的基础模子重新加载一遍。它只需要像换弹夹一样,快速换掉与这个配置联系的“适配器”(比如LoRA权重)。这个操作极地面减少了磁盘读写和时辰支拨,让GPU险些不错无缝连系地处理下一个任务。
这么一来,你的单个GPU就能在归拢时辰里,同期“热心”20个致使更多的实验配置。每个数据块试验完成后,像逝世、准确率这些关节计划,会坐窝流式传输到一个叫MLflow的面貌板上,让你及时掌持通盘实验的进展。
官方给出的数据泄露,在一样的硬件(比如一块英伟达A100 GPU)上,传统挨次一次只可跑1个配置,跑20个配置需要200个小时。而RapidFire AI不错同期跑20个,系数只需要10个小时。
实验计划量,栽种了20倍。
RapidFire AI始创了一套叫“交互式截止操作”(Interactive Control Ops, IC Ops)的玩法。
通过阿谁MLflow面貌板,你就像个出谋献计的将军,看着屏幕上通盘配置(士兵)的及时战报(计划弧线)。
发现哪个配置进展欠安,逝世降不下去?径直一个“住手”(Stop)指示,坐窝断绝它,把贵重的GPU资源开释出来给别东谈主用。
淌若某个被你暂停的配置,你自后又合计它还有抢救的价值,不错给它一个“规复”(Resume)指示,它就能从前次停驻的地点继续试验。
看到某个配置进展稀薄出色,是个好苗子?立时用“克隆修改”(Clone-Modify)功能,一键复制这个配置,然后稍许改变一下参数(比如把学习率调高少量),一个新的、更有后劲的实验就坐窝加入了构兵序列。
关于那些透顶失败能够无效的配置,一个“删除”(Delete)操作就能让实验环境规复整洁。
通盘这些操作,都只需要在网页上点几下鼠标,不需要改代码,更不需要重启通盘实验。这种在实验半途“开天眼”并径直侵略的材干,极地面栽种了实验服从和资源应用率。
这背后是一套微就业架构在撑持。你前端的操作指示,通过一个叫Dispatcher的接口,发给当作中央大脑的Controller,Controller再去开荒具体的Worker程度推行。实验的通盘景况都存在一个SQLite数据库里,保证了操作的快速反应和景况的准确纪录。
你毋庸费神怎样把任务分派给GPU最合理,RapidFire AI内置的智能交流器会帮你惩办一切。
淌若你有一台多GPU的机器,比如4张卡。交流器会自动检测到,然后把任务分派下去。它不错让4张卡各跑一个孤立的配置,也不错把一个稀薄大的模子拆分到多张卡上协同试验,最大化应用你通盘的狡计资源。
它的交流政策也很贤惠,比如数据块级别的交流,保证GPU总有活干;适配器热交换,减少切换模子的恭候时辰;还有动态负载平衡,及时监控每张卡的负载,自动诊治任务分派,幸免有的卡累死、有的卡闲死的情况。
从此,LLM微调就从一个“凭嗅觉、排长队、干瞪眼”的慢活,变成了一个“看数据、皆步走、随时调”的闲隙。
硬核数据对比
传统微调在切换配置的时候,GPU有大都的优游时辰,应用率频频在40%到60%之间徬徨。而RapidFire AI通过高效的交流,能把GPU应用率相识在85%到95%的超高水平。配置切换的支拨,从几分钟裁减到不及一分钟。
功能上的对比就更径直了。多配置并行、及时动态截止、适配器热交换这些中枢功能,传统器具基本都莫得。
它的兼容性也作念得很好,全面拥抱主流生态。原生扶植PyTorch,无缝对接Hugging Face的常用库,比如Transformers、TRL(调动器强化学习)、PEFT(参数高效微调)。
吴恩达评价到:“好多配置者正从提醒工程转向微调,以提高准确性、可靠性和资本效益。RapidFire AI赋予配置者并行开首数十个实验的材干,加快构建高质料的调优模子。”
最苦恼的少量,RapidFire AI礼聘了至极宽松的Apache 2.0条约将其开源。
参考贵府:
https://www.globenewswire.com/news-release/2025/09/23/3154671/0/en/RapidFire-AI-Launches-Breakthrough-Open-Source-Engine-for-LLM-Fine-Tuning-and-Post-Training.html
https://rapidfire.ai
https://aifund.ai/portfolio/rapidfireai
https://github.com/rapidfireai/rapidfireai
END开云体育
发布于:北京市