香港科技大学(广州)HPC AI融合智算中心上线试运行
9月25日,香港科技大学(广州)HPC AI融合智算中心(以下简称“智算中心”)已完成联调测试,并正式投入试运行。
当前,AIGC应用正以惊人的速度发展,2018至2022年,大模型参数量从1亿飙升至5400亿。毫无疑问,AIGC凭借强大能力惊艳全世界的背后,是超大算力的加持。
算力,成了最稀缺、最紧俏的“新资源”。
1. 拥抱前沿,快人一步
AIGC涉足教育行业的潜力不容忽视。今年6月初,香港科技大学(广州)宣布,GPT服务已经完成联调测试并正式上线,服务全校教职工及学生。作为国内率先在校内全面启用GPT服务的大学,港科大(广州)以“敢为天下先”的担当,拥抱科研进步,投身科研研发更是题中应有之义。
港科大(广州)推出的GPT-4和ChatGPT服务,正是学校主动拥抱前沿科技,积极探索推动教学、科研及行政管理发展新方式的有力印证。
无论是AIGC,还是各科研领域的计算分析,都依赖于高质量、成规模的算力。为进一步满足全校师生科研工作的需求,HPC AI融合智算中心的规划应运而生。
2. 国际视野,中国速度
莫道君行早,更有早行人。校长特别助理、校长办公室主任李斌博士谈到智算中心从蓝图到运营的过程,感慨颇深。早在2022年年中,港科大(广州)开学前,倪明选校长在全盘深入思考学校信息化基建工作时,就对算力给予了高度重视。据校长特别助理、校办主任李斌博士介绍,倪明选校长指出,“首先,作为一所全新的科技大学,信息化设施必须立足于学校的科研和教学需求,采用最先进的技术和设备,以确保在基础设施建设上处于世界前列;其次,学校要充分利用第三方供应商的成熟资源,汲取百家之长、融会贯通,构建具有港科大(广州)特色和优势的信息化基础设施;第三,要避免资源分散,由学校统筹建设和运营校级一体化的综合信息化服务平台,为全校师生员工提供服务;第四,要做到绿色环保和低碳清洁。”
在去年9月学校开学之际,在倪明选校长的倡导下,学校决策:启动智算中心项目,拓展学校科研算力。校长特别助理、校长办公室主任李斌博士牵头统筹该项目,资讯科技处、学校的多个学术部门及科研团队共同参与该项目。彼时,ChatGPT还没有震惊世界,算力需求喷发的局面也尚未成型。而正是港科广管理团队极富国际视野和前瞻性的“提前落子”,让学校智算中心在起步阶段占据了一定先发优势。校长办公室资讯科技处 (ITD) 处长吴刚忍不住感慨:学校又一次“踩对了节奏”。
筚路蓝缕,以启山林。虽然启动较早,但要一步步从底层AI平台的搭建、算力的分配、集成系统的研发、数据中心的施工到联调测试、正式运行,离不开中国移动、华为、华三等多个校外合作方和校内多个科研团队的内外部通力合作。其中,信息枢纽院长陈雷教授带领团队与学校资讯科技处(ITD)相互配合,进行了深入的算力调研和评估工作,并制定了具体的算力需求指标。同时,团队还对学校的智算中心集群进行了测试,发现其集群性能出色,在扩散模型训练等方面表现高效。据陈雷教授透露,元宇宙课室的课程设计和开发的课件也将在第二阶段放到智算中心——即元宇宙课程系统云化。
在智算中心的建设过程中,算力需求井喷,可调度资源紧张,最终能够按时完成智算中心的搭建和运营,是“中国速度”在香港科技大学(广州)的再一次体现。
3. 湾区领先,国内一流
香港科技大学(广州)智算中心拥有强大的计算能力和出色的稳定性,具有高度可扩展性,支持多机多卡、管理异构。核心算力包括通用HPC AI平台和国产AI平台两大部分:其中,通用HPC AI平台理论算力达到6.35PFlops@FP64,算力组成涵盖英特尔CPU 14656核、AMD CPU 2560核、NVIDIA A800 GPU卡520张及NVIDIA A40 GPU卡120张,配套内存2.3PB、数据存储包含SSD 309TB和HDD 3.9PB;国产AI平台理论算力达到19.04PFlops@FP16,算力组成涵盖ARM CPU 1728核、Atlas 300T Pro GPU卡64张,Atlas 300V Pro GPU卡16张,配套内存1.5TB、数据存储772TB。
通过智算中心,用户可快速处理海量数据,进行复杂的科学计算和工程模拟,更好地支持校园师生及科研团队快速开展科研、教学活动。这样的综合算力水平、中外技术融合的多元化平台,让港科大(广州)智算中心达到了大湾区领先、国内一流的水平。
但这仅仅只是香港科技大学(广州)对智算中心发展规划的第一步,未来从硬件上,学校独立的数据中心正在进行内部改造,中心可容纳算力是目前算力的6-8倍;从软件上,学校资讯科技处(ITD)也将联合校内科研团队和校外合作方,打造适配不同科研需求的算力模型平台,让这些来之不易的算力能够最大化、最方便地助力学校乃至整个大湾区的科研需求。
4. 规范管理,多元发展
为了保障智算中心资源得到合理分配及有效利用,学校资讯科技处(ITD)已经做了多方面的准备:通过测试阶段已经运行的2400多个任务,智算中心的知识库已经初具雏形,可以帮助使用团队了解相关资源信息和规范;同时对于算力资源的管理办法也同步实施,保障智算中心的有效和稳定运行。
据介绍,本周三,学校资讯科技处(ITD)将联合校内专家及合作伙伴,组织智算中心宣讲暨首次培训会,也同步组建了HPC AI融合智算中心微信群方便校内各科研团队进行交流讨论。
在智算中心的“任务清单”里,试运行只是一个开始,快速组建运营团队,年底实现“适配性升级”,不断针对不同的科研课题优化模型、完善使用体验,继续扩大算力规模、打造服务湾区科研的超算中心……这些新任务、新挑战又将接踵而至,但在“凡事皆可为”的科大精神鼓励下,香港科技大学(广州)的每一位成员,都在向着挑战与机遇并存的人工智能时代,乘风破浪,不断前行。
来源:香港科技大学(广州)