OpenCL (OpenComputing Language) est la combinaison d'une API et d'un langage de programmation dérivé du C, proposé comme un standard ouvert par le Khronos Group. OpenCL est conçu pour programmer des systèmes parallèles hétérogènes comprenant par exemple à la fois un CPU multi-cœur et un GPU. OpenCL propose donc un modèle de programmation se situant à l'intersection naissante entre le monde des CPU et des GPU, les premiers étant de plus en plus parallèles, les seconds étant de plus en plus programmables.
Présentation
OpenCL distingue le processeur hôte (processeur central faisant office de chef d'orchestre) des périphériques (CPU, GPU, ou autre) dont la mission est d'exécuter des noyaux de calcul intensifs. OpenCL distingue donc d'un côté l'application tournant sur le processeur hôte (et qui va appeler l'API OpenCL), et de l'autre côté les noyaux qui sont programmés en OpenCL-C (et dont la vocation est d'être exécuté sur les périphériques).
OpenCL permet d'exprimer aisément du parallélisme de tâches mais aussi du parallélisme de données sous deux formes ; SPMD (Single Program Multiple Data) et SIMD (Single Instruction Multiple Data), le tout de manière hiérarchique. Un graphe de tâches peut être créé dynamiquement via l'API OpenCL. Chaque tâche peut être représentée soit sous forme d'une instance unique (appelée tâche), soit sous forme d'une collection d'instances (appelée NDRange) d'un même noyau. Les NDRanges peuvent être de 1, 2 ou 3 dimensions. Chaque instance de kernel appartenant à un NDRange est appelée work-item. Le NDrange peut lui-même être structuré en work-groups, ce qui permet aux work-items à l’intérieur des work-groups de partager des données et de se synchroniser via des barrières.
Si parmi certains de ses objectifs techniques, OpenCL semble se rapprocher de C pour CUDA, modèle de programmation propriétaire de la société Nvidia, OpenCL a des objectifs plus larges car n'étant pas uniquement dédié aux GPU. Dans le monde du calcul haute performance ou du jeu, OpenCL permettra de tirer parti de la puissance des processeurs graphiques, des CPU multi-cœurs ou d'autres systèmes de calcul intensifs tels le CELL d'IBM, qui équipe notamment la PlayStation 3 de Sony. Dans le monde des systèmes embarqués sur puce (SoC), tels qu'on les trouve dans les smartphones, OpenCL permettra l'accès, via une infrastructure de programmation unique, au processeur central, ainsi qu'aux différents sous-systèmes multimédia embarqués (GPU, DSP, computing array ou autres).
Il existe actuellement peu de moyens de déboguer des noyaux OpenCL. Tout d'abord, le débogueur NVIDIA Parallel Nsight, capable de déboguer CUDA thread par thread, ne supporte actuellement pas OpenCL, mais permet seulement de traquer les appels à l'API[2]. Ensuite, AMD propose une extension permettant de mettre des traces directement dans le code OpenCL (cl_amd_printf). Enfin, un programme appelé gDebugger (par Gremedy puis par AMD[3]) permet de suivre le déroulement de l'algorithme thread par thread. gDebugger a évolué, se nomme maintenant CodeXL et est hébergé[4] par l'initiative GPUOPEN.
OpenCL a été initialement conçu par Apple[7] (qui en a déposé la marque), et affiné dans le cadre d'une collaboration avec AMD, Intel et Nvidia. Apple soumet d'abord sa proposition initiale au Khronos Group. Le , le Khronos Compute Working Group est formé, comprenant des représentants des fabricants de matériel informatique et de logiciels. Celui-ci travaille durant cinq mois à boucler les détails techniques de la spécification OpenCL 1.0. La spécification est révisée par les membres de Khronos et approuvée pour une version d'essai le . Une nouvelle version, OpenCL 1.1, est publiée en par le Khronos Group. OpenCL 1.1 clarifie certains aspects de la spécification précédente et apporte de nouvelles fonctionnalités telles que les sous-buffers, les vecteurs à 3 éléments, les événements utilisateur, de nouvelles fonctions builtin, le support en standard d'extensions optionnelles 1.0 (telles que les fonctions atomiques 32 bits).
OpenCL est intégré dans Mac OS X 10.6[7] (Snow Leopard).
AMD décide de supporter OpenCL et DirectX 11 plutôt que Close to Metal dans son framework Stream SDK. RapidMind(en) annonce l'adoption de OpenCL sous sa plate-forme de développement, afin de supporter les processeurs graphiques de plusieurs fabricants avec une interface unique. Nvidia confirme également le le support complet de la spécification 1.0 dans son GPU Computing Toolkit[8].
Le , le Khronos Group a publié les spécifications d'OpenCL 1.2. On y trouve notamment des fonctionnalités liées à la mobilité et à la portabilité, avec par exemple la possibilité de dissocier compilation et édition de liens des noyaux[9].
Le Khronos Group a également développé une intégration d'OpenCL, bibliothèque de calcul parallèle, dans l'ensemble des interfaces de programmation d'HTML5[10]. Actuellement, les navigateurs utilisent des extensions pour gérer OpenCL.
Des implémentations d'OpenCL existent pour la majorité des plateformes aujourd'hui. IBM pour ses supercalculateurs sous GNU/Linux utilisant des processeurs Power, les processeurs X86 d'Intel et AMD et les GPU les accompagnant traditionnellement (ATI, nVidia, VIA), les processeurs ARM Cortex-A9 (parties SSE et fpu 128bits Neon), ainsi que les DSP, GPU et autres computing array les accompagnant dans les nombreuses implémentations des System on chip (SoC) (nVidia Tegra2, QualcommSnapdragon, Apple A4, MarvellArmada, etc.). Mesa (Implémentation OpenGL/OpenVG sous GNU/Linux) contient un state-tracker OpenCL pour Gallium3D en cours de développement, nommé Clover[12],[13]
Le , AMD et Nvidia font la première démonstration publique d'OpenCL, une présentation de 75 minutes à SIGGRAPH Asia 2008. AMD effectue une démonstration d'OpenCL accélérée sur CPU et explique la scalabilité d'OpenCL sur un ou plusieurs cœurs tandis qu'Nvidia fait une démonstration accélérée par GPU[14],[15].
Le , à la GDC 2009, AMD et Havok font une démonstration de la première implémentation accélérée par OpenCL, Havok Cloth sur un GPU de la série Radeon HD 4000 d'AMD[16].
Le , Nvidia annonce la sortie de son pilote OpenCL et du SDK aux développeurs participant à son OpenCL Early Access Program[17].
Le , AMD révèle les premiers outils de développement pour sa plateforme OpenCL comme partie de son programme ATI Stream SDK v2.0 Beta[18].
Le , Apple sort Mac OS XSnow Leopard, qui contient une implémentation complète d'OpenCL[19].
Dans Snow Leopard, OpenCL est initialement supporté sur les puces ATI Radeon HD 4850, ATI Radeon HD 4870 ainsi que les puces Nvidia Geforce 8600M GT, GeForce 8800 GS, GeForce 8800 GT, GeForce 8800 GTS, Geforce 9400M, GeForce 9600M GT, GeForce GT 120, GeForce GT 130, GeForce GTX 285, Quadro FX 4800, et Quadro FX 5600[20].
Le , Nvidia sort ses propres pilotes OpenCL et son implémentation du SDK.
Le , AMD sort la quatrième bêta du ATI Stream SDK 2.0, qui fournit une implémentation OpenCL complète sur tous les GPU des familles R700/R800, utilisant également les unités SSE3 des CPUs. Le SDK est disponible à la fois pour GNU/Linux et Windows[21].
Le , IBM sort la version 0.1 de son SDK OpenCL pour GNU/Linux sur l'architecture Power utilisé dans une majorité des plus puissants supercalculateurs au monde[22].
Le , Nvidia sort des pilotes pour l'implémentation OpenCL 1.0 (rev 48).
Les implémentations OpenCL d'Apple[23], Nvidia[24], RapidMind(en)[25] et Mesa Gallium3D[26] sont toutes basées sur la technologie de compilation LLVM et utilisent le compilateur Clang comme frontend.
Le , VIA sort son premier produit supportant OpenCL 1.0 - Le processeur vidéo ChromotionHD 2.0 inclus dans les puces VN1000[27].
Le , AMD sort la version de production de l’ATI Stream SDK 2.0[28], qui fournit un support d'OpenCL 1.0 pour les GPU R800 et un support bêta pour R700.
Le , Intel sort la version finale de son kit de développement supportant OpenCL version 1.1[29].
Le , AMD annonce son kit de développement ATI Stream SDK 2.5[30], qui améliore, entre autres, la bande passante CPU/GPU pour tirer un meilleur parti de ses récents APU.
Chez Intel, les processeurs graphiques inclus dans sa gamme de processeurs Ivy Bridge, sortis le , Intel HD 2500 ainsi que HD 4000 et supérieurs, sont les premières architectures à supporter matériellement OpenCL, en version 1.1[31].
La bibliothèque Beignet[32] est une bibliothèque OpenCL libre pour les processeurs Intel Ivy Bridge GT2, dans le cadre du projet freedesktop.org, et développé principalement par Intel. Il utilise principalement LLVM, mais est également compatible avec GCC.
Fin 2013, ARM annonce à son tour son « Mali OpenCL SDK », pour ses processeurs graphiques Mali T600 et supérieurs, dont les premiers modèles sont sortis en 2012. Les sources sont disponibles, mais la licence est propriétaire et contraignante quant à la redistribution[33].
Implémentations Open-source
Clover[1] et libCLC[2] pour les fonctions de la bibliothèque standard OpenCL
/* creation d'un contexte de calcul sur GPU */context=clCreateContextFromType(NULL,CL_DEVICE_TYPE_GPU,NULL,NULL,NULL);/* récupération de la liste des cartes disponibles */clGetContextInfo(context,CL_CONTEXT_DEVICES,0,NULL,&nb_devices);clGetContextInfo(context,CL_CONTEXT_DEVICES,nb_devices,devices,NULL);/* creation d'une queue de commande sur le premier GPU */queue=clCreateCommandQueue(context,devices[0],0,NULL);/* allocation des tampons mémoire */memobjs[0]=clCreateBuffer(context,CL_MEM_READ_ONLY|CL_MEM_COPY_HOST_PTR,sizeof(float)*2*num_entries,srcA,NULL);memobjs[1]=clCreateBuffer(context,CL_MEM_READ_WRITE,sizeof(float)*2*num_entries,NULL,NULL);/* création du programme de calcul (le programme qui s'execute sur le GPU) */program=clCreateProgramWithSource(context,1,&fft1D_1024_kernel_src,NULL,NULL);/* compilation du programme */clBuildProgram(program,0,NULL,NULL,NULL,NULL);/* création du noyau de calcul */kernel=clCreateKernel(program,"fft1D_1024",NULL);/* mise en place des paramètres */clSetKernelArg(kernel,0,sizeof(cl_mem),(void*)&memobjs[0]);clSetKernelArg(kernel,1,sizeof(cl_mem),(void*)&memobjs[1]);clSetKernelArg(kernel,2,sizeof(float)*(local_work_size[0]+1)*16,NULL);clSetKernelArg(kernel,3,sizeof(float)*(local_work_size[0]+1)*16,NULL);/* création des objets de travail et lancement du calcul */global_work_size[0]=num_entries;local_work_size[0]=64;clEnqueueNDRangeKernel(queue,kernel,1,NULL,global_work_size,local_work_size,0,NULL,NULL);
// This kernel computes FFT of length 1024. The 1024 length FFT is decomposed into // calls to a radix 16 function, another radix 16 function and then a radix 4 function __kernelvoidfft1D_1024(__globalfloat2*in,__globalfloat2*out,__localfloat*sMemx,__localfloat*sMemy){inttid=get_local_id(0);intblockIdx=get_group_id(0)*1024+tid;float2data[16];// starting index of data to/from global memory in=in+blockIdx;out=out+blockIdx;globalLoads(data,in,64);// coalesced global reads fftRadix16Pass(data);// in-place radix-16 pass twiddleFactorMul(data,tid,1024,0);// local shuffle using local memory localShuffle(data,sMemx,sMemy,tid,(((tid&15)*65)+(tid>>4)));fftRadix16Pass(data);// in-place radix-16 pass twiddleFactorMul(data,tid,64,4);// twiddle factor multiplication localShuffle(data,sMemx,sMemy,tid,(((tid>>4)*64)+(tid&15)));// four radix-4 function calls fftRadix4Pass(data);fftRadix4Pass(data+4);fftRadix4Pass(data+8);fftRadix4Pass(data+12);// coalesced global writes globalStores(data,out,64);}
Mehdi Roozmeh et Luciano Lavagno, « Design space exploration of multi-core RTL via high level synthesis from OpenCL models », Microprocessors and Microsystems, vol. 63, , p. 199-208 (DOI10.1016/j.micpro.2018.09.009, lire en ligne)