根据国际市场研究机构Omdia预测,2025年将成为数据中心行业,尤其是服务器市场的又一个强劲增长年。“云服务提供商与企业的新一轮AI基础设施部署,将带动全球服务器资本支出增长22%,明年将超过2800亿美元。”该机构预计,这一强劲势头将贯穿整个十年,到2028年服务器市场规模或达3800亿美元,到2030年更有望逼近5000亿美元。
2024年,AI算力芯片市场经历了从“高烧”到相对理性的转变。尽管GPU的需求依然强劲,但企业的恐慌性囤货行为从年初的高峰开始缓解,英伟达的H200在市场上的渠道价格也在不断回落,二手H100等GPU的转售价格同样呈现下降趋势。TrendForce集邦咨询的分析师指出,尽管英伟达的GB200出货延后,但整体市场供应已经出现趋稳的态势,预计2025年GB200系列将大规模量产。这意味着市场对于GPU的恐慌性采购情绪已经缓解,企业可以更容易地获取所需的算力芯片。
在GPU供应趋稳的背景下,AI算力租赁的需求正在迎来上升。许多中小企业和初创公司并不愿意或无法投入巨额资金构建完整的AI训练基础设施,因此转向更加灵活的租赁模式,以更好地控制成本。这种模式在当前形势下显得尤为吸引,因为它只需在有训练需求时按需采购算力。
那么中小企业和初创公司在租赁AI算力时,应注意以下事项:
一、成本考量
- 价格结构:仔细比较不同提供商的价格结构,包括按小时、按使用量、按天、按月等不同租赁周期的价格,以及是否有额外的费用,如数据传输费用、存储费用等。例如,AutoDL提供多种租赁周期选择,需注意其数据传输和存储费用的收取标准。
- 性价比:不能仅看价格,还要考虑算力性能和服务质量。要评估提供商的GPU型号、核心数、内存大小等参数是否符合项目要求,关注平台的稳定性和计算效率,以及是否能够支撑起背后庞大的运维系统。
- 长期成本:对于长期且持续需要高算力的项目,购买可能在长远看来更经济。但如果项目算力需求不稳定或企业资金压力较大,租赁则更具成本效益。
二、技术适配
- 算力性能:确保租赁的算力设备性能能够满足自身业务需求,如训练模型的复杂度、数据处理速度等。要关注平台的GPU等硬件设备的性能指标,以及是否会出现频繁的卡顿或故障,任务的执行速度是否满足预期。
- 技术更新:考虑到AI和计算硬件技术的快速进步,租赁可以保证使用最新的技术,避免购买硬件后快速过时的风险。同时,要关注提供商是否能够及时更新设备,以应对技术更新带来的价值变化。
- 集成与兼容:确认租赁的算力资源能够与企业现有的IT基础设施、软件工具等进行良好的集成和兼容,确保数据能够顺畅传输和处理,避免出现技术障碍影响业务进展。
三、风险评估
- 数据安全:确保提供商具备完善的数据安全保障措施,如数据加密、访问控制、备份与恢复等,防止数据泄露、丢失或被篡改。特别是对于涉及敏感信息或商业机密的企业,数据安全尤为重要。
- 供应商稳定性:考察提供商的市场声誉、财务状况和运营稳定性,避免选择存在经营风险或可能倒闭的供应商,导致算力服务中断或数据无法恢复。
- 技术风险:由于国内算力芯片受美国政策影响,替代产品在性能、稳定性和能耗上存在差距,租赁公司需做好算力设施的采购和库存管理,优化租赁周期和回收策略,以应对技术风险。
随着技术的成熟,企业在资源部署上将更多采用自建与租赁并行的方式。这不仅是算力运营市场专业度演进的自然结果,也符合企业对经济性的现实选择。大型企业纷纷选择自建AI训练集群,而中小企业则倾向于灵活的租赁模式,这一转变恰恰反映了市场的逐步成熟。2025年,AI算力市场将迎来GPU供应的平稳期,算力租赁模式也将强势崛起。企业将根据自身的业务需求和经济能力,灵活选择自建或租赁的方式获取算力资源。随着技术的不断进步,集成度和连接方式的优化将成为未来算力市场的重要发展方向。企业需要抓住这一机遇,巩固自身的竞争优势。
粤公网安备44030402000391号