Fix/refactor esimd intrinsic tests.

kbobrovs · kbobrovs · commit abf8a6a909e5 · 2021-10-09T21:53:54.000-07:00
Signed-off-by: Konstantin S Bobrovsky &lt;konstantin.s.bobrovsky@intel.com&gt;
diff --git a/llvm/test/SYCLLowerIR/esimd_lower_intrins.ll b/llvm/test/SYCLLowerIR/esimd_lower_intrins.ll
@@ -2,6 +2,13 @@
 ; consumable by the CM back-end.
 ;
 ; RUN: opt < %s -LowerESIMD -S | FileCheck %s
+;
+; TODO refactor all the test cases - make them C++ and move to
+; sycl\test\esimd\intrins_trans.cpp for much easier maintenance w/o losing
+; testing strength. Formally, each LLVM pass should have .ll tests, but this is
+; not practical in this case.
+;
+; All new test cases should be added to intrins_trans.cpp
 
 target datalayout = "e-i64:64-v16:16-v24:32-v32:32-v48:64-v96:128-v192:256-v256:256-v512:512-v1024:1024-n8:16:32:64"
 target triple = "spir64-unknown-unknown"
@@ -16,77 +23,6 @@ target triple = "spir64-unknown-unknown"
 
 ; LowerESIMD pass should process every function, 
 ; !sycl_explicit_simd metadata is not necessary.
-define dso_local spir_func <32 x i32>  @FUNC_1() {
-  %a_1 = alloca <32 x i64>
-  %1 = load <32 x i64>, <32 x i64>* %a_1
-  %a_2 = alloca  <32 x i16>
-  %2 = load  <32 x i16>,  <32 x i16>* %a_2
-  %ret_val = call spir_func  <32 x i32>  @_Z20__esimd_flat_atomic0ILN2cm3gen14CmAtomicOpTypeE2EjLi32ELNS1_9CacheHintE0ELS3_0EENS1_13__vector_typeIT0_XT1_EE4typeENS4_IyXT1_EE4typeENS4_ItXT1_EE4typeE(<32 x i64> %1,  <32 x i16> %2)
-; CHECK: %{{[0-9a-zA-Z_.]+}} = call <32 x i32> @llvm.genx.svm.atomic.inc.v32i32.v32i1.v32i64(<32 x i1> %{{[0-9a-zA-Z_.]+}}, <32 x i64> %{{[0-9a-zA-Z_.]+}}, <32 x i32> undef)
-  ret <32 x i32>  %ret_val
-}
-
-define dso_local spir_func <32 x i32>  @FUNC_2() {
-  %a_1 = alloca <32 x i64>
-  %1 = load <32 x i64>, <32 x i64>* %a_1
-  %a_2 = alloca  <32 x i32>
-  %2 = load  <32 x i32>,  <32 x i32>* %a_2
-  %a_3 = alloca  <32 x i16>
-  %3 = load  <32 x i16>,  <32 x i16>* %a_3
-  %ret_val = call spir_func  <32 x i32>  @_Z20__esimd_flat_atomic1ILN2cm3gen14CmAtomicOpTypeE0EjLi32ELNS1_9CacheHintE0ELS3_0EENS1_13__vector_typeIT0_XT1_EE4typeENS4_IyXT1_EE4typeES7_NS4_ItXT1_EE4typeE(<32 x i64> %1,  <32 x i32> %2,  <32 x i16> %3)
-; CHECK: %{{[0-9a-zA-Z_.]+}} = call <32 x i32> @llvm.genx.svm.atomic.add.v32i32.v32i1.v32i64(<32 x i1> %{{[0-9a-zA-Z_.]+}}, <32 x i64> %{{[0-9a-zA-Z_.]+}}, <32 x i32> %{{[0-9a-zA-Z_.]+}}, <32 x i32> undef)
-  ret <32 x i32>  %ret_val
-}
-
-define dso_local spir_func <32 x i32>  @FUNC_3() {
-  %a_1 = alloca <32 x i64>
-  %1 = load <32 x i64>, <32 x i64>* %a_1
-  %a_2 = alloca  <32 x i32>
-  %2 = load  <32 x i32>,  <32 x i32>* %a_2
-  %a_3 = alloca  <32 x i32>
-  %3 = load  <32 x i32>,  <32 x i32>* %a_3
-  %a_4 = alloca  <32 x i16>
-  %4 = load  <32 x i16>,  <32 x i16>* %a_4
-  %ret_val = call spir_func  <32 x i32>  @_Z20__esimd_flat_atomic2ILN2cm3gen14CmAtomicOpTypeE7EjLi32ELNS1_9CacheHintE0ELS3_0EENS1_13__vector_typeIT0_XT1_EE4typeENS4_IyXT1_EE4typeES7_S7_NS4_ItXT1_EE4typeE(<32 x i64> %1,  <32 x i32> %2,  <32 x i32> %3,  <32 x i16> %4)
-; CHECK: %{{[0-9a-zA-Z_.]+}} = call <32 x i32> @llvm.genx.svm.atomic.cmpxchg.v32i32.v32i1.v32i64(<32 x i1> %{{[0-9a-zA-Z_.]+}}, <32 x i64> %{{[0-9a-zA-Z_.]+}}, <32 x i32> %{{[0-9a-zA-Z_.]+}}, <32 x i32> %{{[0-9a-zA-Z_.]+}}, <32 x i32> undef)
-  ret <32 x i32>  %ret_val
-}
-
-define dso_local spir_func <32 x i32>  @FUNC_4() {
-  %ret_val = call spir_func  <32 x i32>  @_Z33__esimd_flat_block_read_unalignedIjLi32ELN2cm3gen9CacheHintE0ELS2_0EENS1_13__vector_typeIT_XT0_EE4typeEy(i64 0)
-; CHECK: %{{[0-9a-zA-Z_.]+}} = call <32 x i32> @llvm.genx.svm.block.ld.unaligned.v32i32.i64(i64 0)
-  ret <32 x i32>  %ret_val
-}
-
-define dso_local spir_func void  @FUNC_5() {
-  %a_1 = alloca  <32 x i32>
-  %1 = load  <32 x i32>,  <32 x i32>* %a_1
-  call spir_func  void  @_Z24__esimd_flat_block_writeIjLi32ELN2cm3gen9CacheHintE0ELS2_0EEvyNS1_13__vector_typeIT_XT0_EE4typeE(i64 0,  <32 x i32> %1)
-; CHECK: call void @llvm.genx.svm.block.st.i64.v32i32(i64 0, <32 x i32> %{{[0-9a-zA-Z_.]+}})
-  ret void
-}
-
-define dso_local spir_func <32 x i32>  @FUNC_6() {
-  %a_1 = alloca <32 x i64>
-  %1 = load <32 x i64>, <32 x i64>* %a_1
-  %a_2 = alloca  <32 x i16>
-  %2 = load  <32 x i16>,  <32 x i16>* %a_2
-  %ret_val = call spir_func  <32 x i32>  @_Z17__esimd_flat_readIjLi32ELi0ELN2cm3gen9CacheHintE0ELS2_0EENS1_13__vector_typeIT_XmlT0_clL_ZNS1_20ElemsPerAddrDecodingEjET1_EEE4typeENS3_IyXT0_EE4typeEiNS3_ItXT0_EE4typeE(<32 x i64> %1, i32 0, <32 x i16> %2)
-; CHECK: %{{[0-9a-zA-Z_.]+}} = call <32 x i32> @llvm.genx.svm.gather.v32i32.v32i1.v32i64(<32 x i1> %{{[0-9a-zA-Z_.]+}}, i32 0, <32 x i64> %{{[0-9a-zA-Z_.]+}}, <32 x i32> undef)
-  ret <32 x i32>  %ret_val
-}
-
-define dso_local spir_func void  @FUNC_7() {
-  %a_1 = alloca <32 x i64>
-  %1 = load <32 x i64>, <32 x i64>* %a_1
-  %a_2 = alloca  <32 x i32>
-  %2 = load  <32 x i32>,  <32 x i32>* %a_2
-  %a_3 = alloca  <32 x i16>
-  %3 = load  <32 x i16>,  <32 x i16>* %a_3
-  call spir_func  void  @_Z18__esimd_flat_writeIjLi32ELi0ELN2cm3gen9CacheHintE0ELS2_0EEvNS1_13__vector_typeIyXT0_EE4typeENS3_IT_XmlT0_clL_ZNS1_20ElemsPerAddrDecodingEjET1_EEE4typeEiNS3_ItXT0_EE4typeE(<32 x i64> %1,  <32 x i32> %2, i32 0, <32 x i16> %3)
-; CHECK: call void @llvm.genx.svm.scatter.v32i1.v32i64.v32i32(<32 x i1> %{{[0-9a-zA-Z_.]+}}, i32 0, <32 x i64> %{{[0-9a-zA-Z_.]+}}, <32 x i32> %{{[0-9a-zA-Z_.]+}})
-  ret void
-}
 
 define dso_local spir_func <16 x i16>  @FUNC_8() {
   %a_1 = alloca <16 x i16>
@@ -98,16 +34,6 @@ define dso_local spir_func <16 x i16>  @FUNC_8() {
   ret <16 x i16>  %ret_val
 }
 
-define dso_local spir_func <1 x float>  @FUNC_9() {
-  %a_1 = alloca <1 x float>
-  %1 = load <1 x float>, <1 x float>* %a_1
-  %a_2 = alloca  <1 x float>
-  %2 = load  <1 x float>,  <1 x float>* %a_2
-  %ret_val = call spir_func  <1 x float>  @_Z16__esimd_div_ieeeILi1EEN2cm3gen13__vector_typeIfXT_EE4typeES4_S4_(<1 x float> %1,  <1 x float> %2)
-; CHECK:  %{{[0-9a-zA-Z_.]+}} = call <1 x float> @llvm.genx.ieee.div.v1f32(<1 x float>  %{{[0-9a-zA-Z_.]+}}, <1 x float>  %{{[0-9a-zA-Z_.]+}})
-  ret <1 x float>  %ret_val
-}
-
 define dso_local spir_func <8 x float>  @FUNC_10() {
   %a_1 = alloca <16 x float>
   %1 = load <16 x float>, <16 x float>* %a_1
@@ -126,20 +52,6 @@ define dso_local spir_func <16 x float>  @FUNC_11() {
   ret <16 x float>  %ret_val
 }
 
-define dso_local spir_func <32 x i32>  @FUNC_21(%opencl.image2d_ro_t addrspace(1)* %0, i32 %1, i32 %2) {
-  %ret_val = call spir_func  <32 x i32>  @_Z24__esimd_media_block_loadIiLi4ELi8E14ocl_image2d_roEN2cm3gen13__vector_typeIT_XmlT0_T1_EE4typeEjT2_jjjj(i32 0, %opencl.image2d_ro_t addrspace(1)* %0, i32 0, i32 32, i32 %1, i32 %2)
-; CHECK: %{{[0-9a-zA-Z_.]+}} = call <32 x i32> @llvm.genx.media.ld.v32i32(i32 0, i32 %{{[0-9a-zA-Z_.]+}}, i32 0, i32 32, i32 %{{[0-9a-zA-Z_.]+}}, i32 %{{[0-9a-zA-Z_.]+}})
-  ret <32 x i32>  %ret_val
-}
-
-define dso_local spir_func void  @FUNC_22(%opencl.image2d_wo_t addrspace(1)* %0, i32 %1, i32 %2) {
-  %a_3 = alloca <32 x i32>
-  %4 = load <32 x i32>, <32 x i32>* %a_3
-  call spir_func  void  @_Z25__esimd_media_block_storeIiLi4ELi8E14ocl_image2d_woEvjT2_jjjjN2cm3gen13__vector_typeIT_XmlT0_T1_EE4typeE(i32 0, %opencl.image2d_wo_t addrspace(1)* %0, i32 0, i32 32, i32 %1, i32 %2, <32 x i32> %4)
-; CHECK: call void @llvm.genx.media.st.v32i32(i32 0, i32 %{{[0-9a-zA-Z_.]+}}, i32 0, i32 32, i32 %{{[0-9a-zA-Z_.]+}}, i32 %{{[0-9a-zA-Z_.]+}}, <32 x i32> %{{[0-9a-zA-Z_.]+}})
-  ret void
-}
-
 define dso_local spir_func <16 x i32>  @FUNC_23() {
   %ret_val = call spir_func <16 x i32> @_Z13__esimd_vloadIiLi16EEN2cm3gen13__vector_typeIT_XT0_EE4typeEPKS5_(<16 x i32> addrspace(4)* addrspacecast (<16 x i32>* getelementptr inbounds (%"cm::gen::simd<int, 16>", %"cm::gen::simd<int, 16>"* @vg, i32 0, i32 0) to <16 x i32> addrspace(4)*))
 ; CHECK: %ret_val1 = load <16 x i32>, <16 x i32> addrspace(4)* addrspacecast (<16 x i32>* getelementptr inbounds (%"cm::gen::simd<int, 16>", %"cm::gen::simd<int, 16>"* @vg, i32 0, i32 0) to <16 x i32> addrspace(4)*), align 64
@@ -268,12 +180,6 @@ define dso_local spir_func <16 x i32>  @FUNC_39() {
   ret <16 x i32>  %ret_val
 }
 
-define dso_local spir_func <8 x i32>  @FUNC_40() {
-  %ret_val = call spir_func  <8 x i32>  @_Z22__esimd_slm_block_readIiLi8EEN2cl4sycl3ext5intel3gpu11vector_typeIT_XT0_EE4typeEj(i32 0)
-; CHECK: %{{[0-9a-zA-Z_.]+}} = call <8 x i32> @llvm.genx.oword.ld.v8i32(i32 0, i32 254, i32 0)
-  ret <8 x i32>  %ret_val
-}
-
 define dso_local spir_func void  @FUNC_41() {
   call spir_func void @_Z16__esimd_sbarrierN2cl4sycl3ext5intel3gpu17EsimdSbarrierTypeE(i8 zeroext 1)
 ; CHECK: call void @llvm.genx.sbarrier(i8 1)
@@ -378,16 +284,7 @@ define dso_local spir_func <32 x half>  @FUNC_52() {
 }
 
 declare dso_local i32 @_Z15__esimd_lane_idv()
-
-declare dso_local spir_func <32 x i32> @_Z20__esimd_flat_atomic0ILN2cm3gen14CmAtomicOpTypeE2EjLi32ELNS1_9CacheHintE0ELS3_0EENS1_13__vector_typeIT0_XT1_EE4typeENS4_IyXT1_EE4typeENS4_ItXT1_EE4typeE(<32 x i64> %0, <32 x i16> %1)
-declare dso_local spir_func <32 x i32> @_Z20__esimd_flat_atomic1ILN2cm3gen14CmAtomicOpTypeE0EjLi32ELNS1_9CacheHintE0ELS3_0EENS1_13__vector_typeIT0_XT1_EE4typeENS4_IyXT1_EE4typeES7_NS4_ItXT1_EE4typeE(<32 x i64> %0, <32 x i32> %1, <32 x i16> %2)
-declare dso_local spir_func <32 x i32> @_Z20__esimd_flat_atomic2ILN2cm3gen14CmAtomicOpTypeE7EjLi32ELNS1_9CacheHintE0ELS3_0EENS1_13__vector_typeIT0_XT1_EE4typeENS4_IyXT1_EE4typeES7_S7_NS4_ItXT1_EE4typeE(<32 x i64> %0, <32 x i32> %1, <32 x i32> %2, <32 x i16> %3)
-declare dso_local spir_func <32 x i32> @_Z33__esimd_flat_block_read_unalignedIjLi32ELN2cm3gen9CacheHintE0ELS2_0EENS1_13__vector_typeIT_XT0_EE4typeEy(i64 %0)
-declare dso_local spir_func void @_Z24__esimd_flat_block_writeIjLi32ELN2cm3gen9CacheHintE0ELS2_0EEvyNS1_13__vector_typeIT_XT0_EE4typeE(i64 %0, <32 x i32> %1)
-declare dso_local spir_func <32 x i32> @_Z17__esimd_flat_readIjLi32ELi0ELN2cm3gen9CacheHintE0ELS2_0EENS1_13__vector_typeIT_XmlT0_clL_ZNS1_20ElemsPerAddrDecodingEjET1_EEE4typeENS3_IyXT0_EE4typeEiNS3_ItXT0_EE4typeE(<32 x i64> %0, i32 %1, <32 x i16> %2)
-declare dso_local spir_func void @_Z18__esimd_flat_writeIjLi32ELi0ELN2cm3gen9CacheHintE0ELS2_0EEvNS1_13__vector_typeIyXT0_EE4typeENS3_IT_XmlT0_clL_ZNS1_20ElemsPerAddrDecodingEjET1_EEE4typeEiNS3_ItXT0_EE4typeE(<32 x i64> %0, <32 x i32> %1, i32 %2, <32 x i16> %3)
 declare dso_local spir_func <16 x i16> @_Z12__esimd_sminIsLi16EEN2cm3gen13__vector_typeIT_XT0_EE4typeES5_S5_(<16 x i16> %0, <16 x i16> %1)
-declare dso_local spir_func <1 x float> @_Z16__esimd_div_ieeeILi1EEN2cm3gen13__vector_typeIfXT_EE4typeES4_S4_(<1 x float> %0, <1 x float> %1)
 declare dso_local spir_func <8 x float> @_Z16__esimd_rdregionIfLi16ELi8ELi0ELi8ELi1ELi0EEN2cm3gen13__vector_typeIT_XT1_EE4typeENS2_IS3_XT0_EE4typeEt(<16 x float> %0, i16 zeroext %1)
 declare dso_local spir_func <16 x float> @_Z16__esimd_wrregionIfLi16ELi8ELi0ELi8ELi1ELi0EEN2cm3gen13__vector_typeIT_XT0_EE4typeES5_NS2_IS3_XT1_EE4typeEtNS2_ItXT1_EE4typeE(<16 x float> %0, <8 x float> %1, i16 zeroext %2, <8 x i16> %3)
 declare dso_local spir_func <16 x i32> @_Z13__esimd_vloadIiLi16EEN2cm3gen13__vector_typeIT_XT0_EE4typeEPKS5_(<16 x i32> addrspace(4)* %0)
@@ -404,8 +301,6 @@ declare dso_local spir_func void @_Z14__esimd_vstoreIfLi1EEvPN2cm3gen13__vector_
 declare dso_local spir_func <16 x float> @_Z13__esimd_vloadIfLi16EEN2cm3gen13__vector_typeIT_XT0_EE4typeEPKS5_(<16 x float> addrspace(4)* %0)
 declare dso_local spir_func void @_Z14__esimd_vstoreIfLi8EEvPN2cm3gen13__vector_typeIT_XT0_EE4typeES5_(<8 x float> addrspace(4)* %0, <8 x float> %1)
 declare dso_local spir_func <8 x float> @_Z13__esimd_vloadIfLi8EEN2cm3gen13__vector_typeIT_XT0_EE4typeEPKS5_(<8 x float> addrspace(4)* %0)
-declare dso_local spir_func <32 x i32> @_Z24__esimd_media_block_loadIiLi4ELi8E14ocl_image2d_roEN2cm3gen13__vector_typeIT_XmlT0_T1_EE4typeEjT2_jjjj(i32 %0, %opencl.image2d_ro_t addrspace(1)* %1, i32 %2, i32 %3, i32 %4, i32 %5)
-declare dso_local spir_func void @_Z25__esimd_media_block_storeIiLi4ELi8E14ocl_image2d_woEvjT2_jjjjN2cm3gen13__vector_typeIT_XmlT0_T1_EE4typeE(i32 %0, %opencl.image2d_wo_t addrspace(1)* %1, i32 %2, i32 %3, i32 %4, i32 %5, <32 x i32> %6)
 declare dso_local spir_func <32 x i32> @_Z13__esimd_vloadIiLi32EEN2cm3gen13__vector_typeIT_XT0_EE4typeEPKS5_(<32 x i32> addrspace(4)* %0)
 declare dso_local spir_func void @_Z14__esimd_vstoreIfLi16EEvPN2cm3gen13__vector_typeIT_XT0_EE4typeES5_(<16 x float> addrspace(4)* %0, <16 x float> %1)
 declare dso_local spir_func void @_ZN2cl4sycl3ext5intel12experimental5esimd8slm_initEj(i32)
@@ -417,7 +312,6 @@ declare dso_local spir_func <16 x i32> @_Z18__esimd_uudp4a_satIjjjjLi16EEN2cl4sy
 declare dso_local spir_func <16 x i32> @_Z18__esimd_usdp4a_satIjiiiLi16EEN2cl4sycl3ext5intel3gpu11vector_typeIT_XT3_EE4typeENS4_IT0_XT3_EE4typeENS4_IT1_XT3_EE4typeENS4_IT2_XT3_EE4typeE(<16 x i32> %0, <16 x i32> %1, <16 x i32> %2)
 declare dso_local spir_func <16 x i32> @_Z18__esimd_sudp4a_satIijjjLi16EEN2cl4sycl3ext5intel3gpu11vector_typeIT_XT3_EE4typeENS4_IT0_XT3_EE4typeENS4_IT1_XT3_EE4typeENS4_IT2_XT3_EE4typeE(<16 x i32> %0, <16 x i32> %1, <16 x i32> %2)
 declare dso_local spir_func <16 x i32> @_Z18__esimd_ssdp4a_satIiiiiLi16EEN2cl4sycl3ext5intel3gpu11vector_typeIT_XT3_EE4typeENS4_IT0_XT3_EE4typeENS4_IT1_XT3_EE4typeENS4_IT2_XT3_EE4typeE(<16 x i32> %0, <16 x i32> %1, <16 x i32> %2)
-declare dso_local spir_func <8 x i32> @_Z22__esimd_slm_block_readIiLi8EEN2cl4sycl3ext5intel3gpu11vector_typeIT_XT0_EE4typeEj(i32 %0)
 declare dso_local spir_func void @_Z16__esimd_sbarrierN2cl4sycl3ext5intel3gpu17EsimdSbarrierTypeE(i8 %0)
 declare dso_local spir_func <8 x i32> @_Z18__esimd_rdindirectIiLi16ELi8ELi0EEN2cl4sycl3ext5intel3gpu11vector_typeIT_XT1_EE4typeENS4_IS5_XT0_EE4typeENS4_ItXT1_EE4typeE(<16 x i32>, <8 x i16>)
 declare dso_local spir_func <16 x i32> @_Z18__esimd_wrindirectIiLi16ELi8ELi0EEN2cl4sycl3ext5intel3gpu11vector_typeIT_XT0_EE4typeES7_NS4_IS5_XT1_EE4typeENS4_ItXT1_EE4typeESB_(<16 x i32>, <8 x i32>, <8 x i16>, <8 x i16>)
diff --git a/sycl/include/sycl/ext/intel/experimental/esimd/detail/memory_intrin.hpp b/sycl/include/sycl/ext/intel/experimental/esimd/detail/memory_intrin.hpp
@@ -486,7 +486,8 @@ __esimd_gather_scaled(__SEIEED::simd_mask_storage_t<N> pred,
 }
 #endif // __SYCL_DEVICE_ONLY__
 
-// slm_block_read reads a block of data from SLM
+// Reads a block of data from given surface at given offset, offset must be
+// 16-byte-aligned.
 template <typename Ty, int N, typename SurfIndAliasTy, int32_t IsModified = 0>
 __ESIMD_INTRIN __SEIEED::vector_type_t<Ty, N>
 __esimd_oword_ld(SurfIndAliasTy surf_ind, uint32_t addr)
diff --git a/sycl/test/esimd/intrins_trans.cpp b/sycl/test/esimd/intrins_trans.cpp
@@ -154,3 +154,117 @@ SYCL_ESIMD_FUNCTION SYCL_EXTERNAL simd<float, 16> foo() {
   }
   return d;
 }
+
+// TODO
+// 1. __esimd* intrinsic translation tests from
+//   llvm\test\SYCLLowerIR\esimd_lower_intrins.ll should be refactored and
+//   moved here, as the form below is much easier to maintain with the same
+//   level of testing strength
+// 2. Test cases above should be refactored not to use user-level APIs like
+//   gather and use __esimd* calls instead.
+template <class T, int N> using vec = typename simd<T, N>::vector_type;
+
+template <int N> using mask = typename simd_mask<N>::vector_type;
+
+SYCL_EXTERNAL void use(const vec<float, 8> &x) SYCL_ESIMD_FUNCTION;
+SYCL_EXTERNAL void use(const vec<int, 8> &x) SYCL_ESIMD_FUNCTION;
+SYCL_EXTERNAL void use(const vec<unsigned char, 8> &x) SYCL_ESIMD_FUNCTION;
+
+SYCL_EXTERNAL vec<float, 8> get8f() SYCL_ESIMD_FUNCTION;
+SYCL_EXTERNAL vec<int, 8> get8i() SYCL_ESIMD_FUNCTION;
+SYCL_EXTERNAL vec<uint64_t, 8> get8ui64() SYCL_ESIMD_FUNCTION;
+SYCL_EXTERNAL vec<unsigned short, 8> get8ui16() SYCL_ESIMD_FUNCTION;
+SYCL_EXTERNAL vec<unsigned char, 8> get8ui8() SYCL_ESIMD_FUNCTION;
+
+SYCL_EXTERNAL void
+test_mem_intrins(uint64_t addr, const vec<float, 8> &xf,
+                 const vec<float, 8> &xi) SYCL_ESIMD_FUNCTION {
+  {
+    constexpr SurfaceIndex si = 0;
+    vec<float, 8> x = __esimd_oword_ld_unaligned<float, 8>(si, 0);
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x float> @llvm.genx.oword.ld.unaligned.v8f32(i32 0, i32 0, i32 0)
+    use(x);
+  }
+  {
+    constexpr SurfaceIndex si = 0;
+    vec<float, 8> x = __esimd_oword_ld<float, 8>(si, 0);
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x float> @llvm.genx.oword.ld.v8f32(i32 0, i32 0, i32 0)
+    use(x);
+  }
+  {
+    constexpr SurfaceIndex si = 0;
+    __esimd_oword_st<float, 8>(si, 0, get8f());
+    // CHECK-LABEL: call void @llvm.genx.oword.st.v8f32(i32 0, i32 0, <8 x float> %{{[a-zA-Z0-9.]+}})
+  }
+  {
+      // TODO
+      // vec<int, 8> x = __esimd_svm_block_ld<int, 8>(addr);
+  } {
+    vec<int, 8> x = __esimd_svm_block_ld_unaligned<int, 8>(addr);
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x i32> @llvm.genx.svm.block.ld.unaligned.v8i32.i64(i64 %{{[a-zA-Z0-9.]+}})
+    use(x);
+  }
+  {
+    __esimd_svm_block_st<int, 8>(addr, get8i());
+    // CHECK-LABEL: call void @llvm.genx.svm.block.st.i64.v8i32(i64 %{{[a-zA-Z0-9.]+}}, <8 x i32> %{{[a-zA-Z0-9.]+}})
+  }
+  {
+    auto x = __esimd_svm_gather<unsigned char, 8>(get8ui64(), 0, get8ui16());
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x i8> @llvm.genx.svm.gather.v8i8.v8i1.v8i64(<8 x i1> %{{[a-zA-Z0-9.]+}}, i32 0, <8 x i64> %{{[a-zA-Z0-9.]+}}, <8 x i8> undef)
+    use(x);
+  }
+  {
+    __esimd_svm_scatter<unsigned char, 8>(get8ui64(), get8ui8(), 0, get8ui16());
+    // CHECK-LABEL: call void @llvm.genx.svm.scatter.v8i1.v8i64.v8i8(<8 x i1> %{{[a-zA-Z0-9.]+}}, i32 0, <8 x i64> %{{[a-zA-Z0-9.]+}}, <8 x i8> %{{[a-zA-Z0-9.]+}})
+  }
+  {
+    auto x =
+        __esimd_svm_atomic0<atomic_op::inc, int, 8>(get8ui64(), get8ui16());
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x i32> @llvm.genx.svm.atomic.inc.v8i32.v8i1.v8i64(<8 x i1> %{{[a-zA-Z0-9.]+}}, <8 x i64> %{{[a-zA-Z0-9.]+}}, <8 x i32> undef)
+    use(x);
+  }
+  {
+    vec<float, 8> src0 = get8f();
+    auto x = __esimd_svm_atomic1<atomic_op::fmin, float, 8>(get8ui64(), src0,
+                                                            get8ui16());
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x float> @llvm.genx.svm.atomic.fmin.v8f32.v8i1.v8i64(<8 x i1> %{{[a-zA-Z0-9.]+}}, <8 x i64> %{{[a-zA-Z0-9.]+}}, <8 x float> %{{[a-zA-Z0-9.]+}}, <8 x float> undef)
+    use(x);
+  }
+  {
+    vec<float, 8> src0 = get8f();
+    vec<float, 8> src1 = get8f();
+    auto x = __esimd_svm_atomic2<atomic_op::fcmpwr, float, 8>(get8ui64(), src0,
+                                                              src1, get8ui16());
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x float> @llvm.genx.svm.atomic.fcmpwr.v8f32.v8i1.v8i64(<8 x i1> %{{[a-zA-Z0-9.]+}}, <8 x i64> %{{[a-zA-Z0-9.]+}}, <8 x float> %{{[a-zA-Z0-9.]+}}, <8 x float> %{{[a-zA-Z0-9.]+}}, <8 x float> undef)
+    use(x);
+  }
+  {
+    constexpr SurfaceIndex si = 0;
+    vec<float, 8> x =
+        __esimd_media_ld<float, 2, 4, 0, SurfaceIndex, 0, 4>(si, 0, 0);
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x float> @llvm.genx.media.ld.v8f32(i32 0, i32 0, i32 0, i32 4, i32 0, i32 0)
+    use(x);
+  }
+  {
+    constexpr SurfaceIndex si = 0;
+    vec<float, 8> x = get8f();
+    __esimd_media_st<float, 2, 4, 0, SurfaceIndex, 0, 4>(si, 0, 0, x);
+    // CHECK-LABEL: call void @llvm.genx.media.st.v8f32(i32 0, i32 0, i32 0, i32 4, i32 0, i32 0, <8 x float> %{{[a-zA-Z0-9.]+}})
+  }
+}
+
+SYCL_EXTERNAL void test_math_intrins() SYCL_ESIMD_FUNCTION {
+  {
+    vec<float, 8> x0 = get8f();
+    vec<float, 8> x1 = get8f();
+    auto y = __esimd_ieee_div<8>(x0, x1);
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x float> @llvm.genx.ieee.div.v8f32(<8 x float> %{{[a-zA-Z0-9.]+}}, <8 x float> %{{[a-zA-Z0-9.]+}})
+    use(y);
+  }
+  {
+    vec<float, 8> x = get8f();
+    auto y = __esimd_ieee_sqrt<8>(x);
+    // CHECK-LABEL: %{{[a-zA-Z0-9.]+}} = call <8 x float> @llvm.genx.ieee.sqrt.v8f32(<8 x float> %{{[a-zA-Z0-9.]+}})
+    use(y);
+  }
+}

Original file line number	Diff line number	Diff line change
`@@ -486,7 +486,8 @@ __esimd_gather_scaled(__SEIEED::simd_mask_storage_t<N> pred,`
`486`	`486`	`}`
`487`	`487`	`#endif // __SYCL_DEVICE_ONLY__`
`488`	`488`
`489`		`-// slm_block_read reads a block of data from SLM`
	`489`	`+// Reads a block of data from given surface at given offset, offset must be`
	`490`	`+// 16-byte-aligned.`
`490`	`491`	`template <typename Ty, int N, typename SurfIndAliasTy, int32_t IsModified = 0>`
`491`	`492`	`__ESIMD_INTRIN __SEIEED::vector_type_t<Ty, N>`
`492`	`493`	`__esimd_oword_ld(SurfIndAliasTy surf_ind, uint32_t addr)`