CPC2021初赛赛题公布

浏览次数：7957 发布时间：2021-06-21-03:06:24

深度学习Transformer算子

赛题背景

自然语言技术近年来得到了长足的发展，AI加速芯片的计算能力也飞速提升，自然语言领域出现了很多超大的模型，比如BERT, GPT-2, GPT-3等，在机器翻译、语言生成等方面得到了广泛的应用。这些模型，多是由Transformer模型架构发展而来。2017年，Google机器翻译团队发表了一篇名为《Attention is All You Need》的论文，提出了Transformer模型架构，不仅在预测结果上击败了当时其他的所有模型，而且由于其计算的可并行性大大加速了训练速度，受到了广泛的关注。

Transformer架构的核心是MultiHead-Attention机制。MultiHead-Attention机制涉及多个批量矩阵乘法操作，计算量比较大，需要针对实际使用的计算设备深入定制优化。因此，本次比赛希望开发并优化一个简化版本的MultiHead-Attention实现。

赛题简介

本赛题中MultiHead-Attention的算法如下:

1、输入参数

MultiHead-Attention的输入包含以下几个：

存储布局左高右低，比如[M, N]，表示N维度连续，M为高维，N为低维。

注意: W的维度[3, D, D]，分别为[Wq, Wk, Wv]，Wq, Wk, Wv的维度均为[D, D]

2、算法介绍

注: * 代表矩阵乘法

1）首先，使用输入的X和W的转置分别计算Q, K, V (如图1中(a)过程)，此处Wq,Wk,Wv的最低维度是与X的公共维度，即相乘累加的维度:

2）将Q, K, V转换为多头表示，为了简化，此处头的数目为(如图1中(b)过程开始部分):

以B=1, S=3, D=4, N=2为例，下图展示了MultiHead-Attention的整个计算过程：

图表 1 MultiHead-Attention的计算流程，其中B=1，S=3，D=4，为了方便展示，此处头数为2

3、比赛参数描述

1）输入参数范围:

a）B: [1, 128]

b）S: [1, 1024]，且大部分测例中S为128的倍数

c）D: 一般为768, 1024, 1280, 1536等数，使得D/N为32的倍数

d）N:一般为12, 16, 24,32等，使得D/N为32的倍数

2）参数类型:

X, W: float*，每个float均在[0.0, 1.0]区间内

Q,K,V,QK: float*，为临时空间，在计算的时候，可以用于临时存储数据

B, S, D, N : int

Y:float*

代码结构

选手只能修改slave.c和master.c文件，不可对其他目录下文件进行更改。已有Makefile文件，可以直接make clean && make进行编译，make run, 即可自动执行测试，测试内容为data/目录中的数据。

程序接口

本次比赛选手需要根据官方提供的数据结构及算子设计众核加速算法，直接接口如下图所示（master.c）, multihead_attention函数athread_spawn的方式调用了从核上执行par_multihead_attn(slave.c)函数，执行计算，athread_join则是等待所有的从核线程完成计算。选手需要编写、优化par_multihead_attn函数，以及有需要的时候修改multihead_attention函数，其他文件均不可修改。如果需要额外的主存空间，可以使用util.h中定义的aligned_malloc/free函数。