16强榜单发布|第一届国产CPU并行应用挑战赛初赛圆满举办

浏览次数：3694 发布时间：2017-08-28-09:08:00

2017年8月27日，由中国计算机学会主办、中国计算机学会无锡分部、国家超级计算无锡中心、国家超级计算济南中心、北京并行科技股份有限公司共同承办的第一届国产CPU并行应用挑战赛(简称CPC)初赛评审会在济南圆满举办。出席本次评审会的有指导委员会共同主席漆锋滨研究员，评审委员会主席张云泉研究员、副主席陈文光教授、评审委员陈一峯教授、冯晓兵研究员、陈虎教授、张玉教授、刘鑫研究员、葛蔚研究员、宋振亚研究员、薛巍副教授、黄小猛副教授、张先轶总经理、乔楠技术总监，组织委员会主席陈健总经理、潘景山副主任、刘钊老师等行业专家，由衷的对以上专家领导表示诚挚感谢。

CPC大赛指导委员会共同主席漆锋滨研究员为本次评审会致辞讲话指出：“CPC大赛是第一次在国产CPU平台上举行的并行应用挑战赛，具有重要的战略意义，必将对国产CPU推广应用产生深刻的影响。本次大赛吸引了来自国内各大学和研究机构共146支队伍报名参赛，其中不乏世界比赛的冠军队伍，是一场高水平的尖峰对决。希望今后有更多的大学生报名参赛，欢迎更多的国产高性能CPU加入进来，国产CPU加油！”

CPC大赛评审委员会主席、国家超算济南中心主任张云泉研究员表示说：“CPC大赛为国产CPU生态环境建设创造了新机会，希望通过大赛吸引更多人才深度学习如何使用国产处理器，从而提升国产平台普及率和使用率。”

评审会现场专家团逐一观看了参赛队伍所提交的PPT讲解，并经过严格的评选和激烈的论证，最终选拨出16支队伍入围，并有资格参加于10月12日在无锡举办的现场总决赛！

热烈祝贺入围决赛的16支参赛队伍，晋级榜单公布如下（排名不分先后、按参赛学校\参赛队名放置）：

一、华北赛区

清华大学，Untitled Diablo

清华大学&山东大学，身为无锡西

清华大学&山东大学，核核私语

解放军信息工程大学，信息工程大学0

解放军信息工程大学，宁静致远欲速不达

二、华东赛区

山东大学，多喝热水多看文档

上海交通大学，循环之谜

中国科学技术大学，中国科大超算鸿雁CPC

中国海洋大学，小虎队

三、东北及西部赛区

成都信息工程大学，DLLT

青海大学，younger

酒泉卫星发射中心，东风0

成都信息工程大学，耦合

四、中南赛区

中山大学，第十只橘猫

中国地质大学(武汉)，中国地质大学(武汉)HPC组14

中国地质大学(武汉)，中国地质大学计算机学院CPC组2

为何“神威·太湖之光”计算系统可以做到蝉联三届世界第一？让我们一起来揭晓答案吧！

“神威•太湖之光”计算系统是国家“863计划”重大专项研究成果，是我国第一台全部采用国产处理器构建的超级计算机，由国家并行计算机工程技术研究中心研制。在2016年6月20日世界TOP500超级计算机排名中，“神威•太湖之光”系统峰值运算性能（125.436PFlops）、持续运算性能(93.015PFlops)、性能功耗比(6.05GFlops/W)三项关键指标均位居世界第一。

“神威•太湖之光”计算系统共包含了40960个“申威26010”众核处理器。“申威26010”是由国家“核高基”重大专项支持的我国第一款自主研发的众核处理器，由国家高性能集成电路设计中心研制，性能国际领先，并成功量产，打破了美国对我国的技术封锁。处理器基于申威（SW-64）指令集，采用片上融合异构众核架构和FCBGA3832封装，单个处理器包含了260个运算核心。

“神威•太湖之光”具有世界领先水平的超大规模系统低功耗控制技术和高密度组装，比目前世界排名第二的系统节能60%以上，单机仓组装密度居世界第一。同时，基于“神威•太湖之光”系统自主研发软件，建立了基于申威CPU的高性能计算软件生态链。

本次CPC初赛赛题为某高阶WENO格式的并行计算。WENO格式（Weighted Essentially Non-Oscillatory schemes）是基于ENO格式（Essentially Non-Oscillatory schemes）发展而来的一种求解双曲守恒律组的高精度高分辨率广义Godunov格式，适合于求解高密度比流体界面不稳定等具有强间断又具有大面复杂流动结构的问题。本程序由中科院力学所李新亮老师团队开发的OpenCFD程序精简而来，在此对李老师团队致以诚挚的谢意。

参赛队伍对申威26010芯片进行了细致的研究，充分利用异构体系结构，将计算数据加载到从核阵列上进行了高效的加速计算，通过设计和实现与SW26010处理器架构紧密结合的优化方法，发挥了申威CPU的超强计算能力，相对于原始版本代码，参赛队伍将运行时间由320余秒提升到1.42秒，获得了高达220余倍的加速效果。

本次参赛队伍水平很高，他们提交的参赛作品技术亮点有：

1.使用多种平台工具对程序进行了详尽的性能分析，快速找到程序性能瓶颈并实施相应的优化。

2.设计和实现高效的MPI并行通信算法，有效提高了数据交换的效率。

3.使用Athread或OpenACC等方式重构原代码，将核心计算部分加载到从核阵列，实现MPI+众核加速的多级并行方案。

4.设计合理的从核数据划分方式，使从核阵列负载均衡并降低访存开销。

5.设计异步DMA传输方案，实现计算和访存时间相互隐藏。

6.使用神威平台提供的SIMD接口，提高并行计算效率。

7.手动重排汇编代码，实现指令流水。

8.优化程序核心计算算法，使用除法等价替换等方式提高计算效率。