Tracking Issue for `stdarch_s390x` #135681

folkertdev · 2025-01-18T12:19:31Z

Feature gate: #![feature(stdarch_s390x)]

This is a tracking issue for the s390x (aka SystemZ) intrinsics in core::arch::s390x.

Public API

Everything in core::arch::s390x.

Missing instructions

based on the clang vecintrin.h (roungly similar to the linkable GCC vecintrin.h).

__lcbb s390x: another batch of intrinsics stdarch#1738
vec_any_eq s390x: final batch of intrinsics stdarch#1743
vec_any_ge s390x: final batch of intrinsics stdarch#1743
vec_any_gt s390x: final batch of intrinsics stdarch#1743
vec_any_le s390x: final batch of intrinsics stdarch#1743
vec_any_lt s390x: final batch of intrinsics stdarch#1743
vec_any_ne s390x: final batch of intrinsics stdarch#1743
vec_any_nge s390x: final batch of intrinsics stdarch#1743
vec_any_ngt s390x: final batch of intrinsics stdarch#1743
vec_any_nle s390x: final batch of intrinsics stdarch#1743
vec_any_nlt s390x: final batch of intrinsics stdarch#1743
vec_all_eq s390x: final batch of intrinsics stdarch#1743
vec_all_ge s390x: final batch of intrinsics stdarch#1743
vec_all_gt s390x: final batch of intrinsics stdarch#1743
vec_all_le s390x: final batch of intrinsics stdarch#1743
vec_all_lt s390x: final batch of intrinsics stdarch#1743
vec_all_ne s390x: final batch of intrinsics stdarch#1743
vec_all_nge s390x: final batch of intrinsics stdarch#1743
vec_all_ngt s390x: final batch of intrinsics stdarch#1743
vec_all_nle s390x: final batch of intrinsics stdarch#1743
vec_all_nlt s390x: final batch of intrinsics stdarch#1743
vec_all_nan s390x: final batch of intrinsics stdarch#1743
vec_all_numeric s390x: final batch of intrinsics stdarch#1743
vec_any_nan s390x: final batch of intrinsics stdarch#1743
vec_any_numeric s390x: final batch of intrinsics stdarch#1743
vec_genmask s390x: add more intrinsics stdarch#1728
vec_genmasks_8 s390x: add more intrinsics stdarch#1728
vec_genmasks_16 s390x: add more intrinsics stdarch#1728
vec_genmasks_32 s390x: add more intrinsics stdarch#1728
vec_genmasks_64 s390x: add more intrinsics stdarch#1728
vec_splat_u8 s390x: add more intrinsics stdarch#1728
vec_splat_s8 s390x: add more intrinsics stdarch#1728
vec_splat_u16 s390x: add more intrinsics stdarch#1728
vec_splat_s16 s390x: add more intrinsics stdarch#1728
vec_splat_u32 s390x: add more intrinsics stdarch#1728
vec_splat_s32 s390x: add more intrinsics stdarch#1728
vec_splat_u64 s390x: add more intrinsics stdarch#1728
vec_splat_s64 s390x: add more intrinsics stdarch#1728
vec_checksum s390x: another batch of intrinsics stdarch#1738
vec_gfmsum_128 s390x: another batch of intrinsics stdarch#1738
vec_gfmsum_accum_128 s390x: another batch of intrinsics stdarch#1738
vec_ceil S390x float rounding stdarch#1712
vec_roundp S390x float rounding stdarch#1712
vec_floor S390x float rounding stdarch#1712
vec_roundm S390x float rounding stdarch#1712
vec_trunc S390x float rounding stdarch#1712
vec_roundz S390x float rounding stdarch#1712
vec_rint S390x float rounding stdarch#1712
vec_roundc S390x float rounding stdarch#1712
vec_round S390x float rounding stdarch#1712
vec_doublee s390x: final batch of intrinsics stdarch#1743
vec_floate s390x: final batch of intrinsics stdarch#1743
vec_abs s390x: add vec_sub, vec_mul, vec_min, vec_max, vec_abs and vec_splats stdarch#1704
vec_add_u128 s390x: another batch of intrinsics stdarch#1738
vec_addc_u128 s390x: another batch of intrinsics stdarch#1738
vec_adde_u128 s390x: another batch of intrinsics stdarch#1738
vec_addec_u128 s390x: another batch of intrinsics stdarch#1738
vec_and S390x vector bitwise operations stdarch#1709
vec_andc S390x vector bitwise operations stdarch#1709
vec_avg s390x: another batch of intrinsics stdarch#1738
vec_bperm_u128 s390x: final batch of intrinsics stdarch#1743
vec_cmpeq s390x: final batch of intrinsics stdarch#1743
vec_cmpeq_idx s390x: final batch of intrinsics stdarch#1743
vec_cmpeq_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cmpeq_or_0_idx s390x: final batch of intrinsics stdarch#1743
vec_cmpeq_or_0_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cmpge s390x: final batch of intrinsics stdarch#1743
vec_cmpgt s390x: final batch of intrinsics stdarch#1743
vec_cmple s390x: final batch of intrinsics stdarch#1743
vec_cmplt s390x: final batch of intrinsics stdarch#1743
vec_cmpne_idx s390x: final batch of intrinsics stdarch#1743
vec_cmpne_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cmpne_or_0_idx s390x: final batch of intrinsics stdarch#1743
vec_cmpne_or_0_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cmpnrg s390x: final batch of intrinsics stdarch#1743
vec_cmpnrg_cc s390x: final batch of intrinsics stdarch#1743
vec_cmpnrg_idx s390x: final batch of intrinsics stdarch#1743
vec_cmpnrg_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cmpnrg_or_0_idx s390x: final batch of intrinsics stdarch#1743
vec_cmpnrg_or_0_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cmprg s390x: final batch of intrinsics stdarch#1743
vec_cmprg_cc s390x: final batch of intrinsics stdarch#1743
vec_cmprg_idx s390x: final batch of intrinsics stdarch#1743
vec_cmprg_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cmprg_or_0_idx s390x: final batch of intrinsics stdarch#1743
vec_cmprg_or_0_idx_cc s390x: final batch of intrinsics stdarch#1743
vec_cntlz S390x vector bitwise operations stdarch#1709
vec_cnttz S390x vector bitwise operations stdarch#1709
vec_cp_until_zero s390x: final batch of intrinsics stdarch#1743
vec_cp_until_zero_cc s390x: final batch of intrinsics stdarch#1743
vec_double s390x: final batch of intrinsics stdarch#1743
vec_eqv S390x vector bitwise operations stdarch#1709
vec_extend_s64 s390x: final batch of intrinsics stdarch#1743
vec_find_any_eq s390x: add more intrinsics stdarch#1728
vec_find_any_eq_cc s390x: add more intrinsics stdarch#1728
vec_find_any_eq_idx s390x: add more intrinsics stdarch#1728
vec_find_any_eq_idx_cc s390x: add more intrinsics stdarch#1728
vec_find_any_eq_or_0_idx s390x: add more intrinsics stdarch#1728
vec_find_any_eq_or_0_idx_cc s390x: add more intrinsics stdarch#1728
vec_find_any_ne s390x: add more intrinsics stdarch#1728
vec_find_any_ne_cc s390x: add more intrinsics stdarch#1728
vec_find_any_ne_idx s390x: add more intrinsics stdarch#1728
vec_find_any_ne_idx_cc s390x: add more intrinsics stdarch#1728
vec_find_any_ne_or_0_idx s390x: add more intrinsics stdarch#1728
vec_find_any_ne_or_0_idx_cc s390x: add more intrinsics stdarch#1728
vec_float s390x: final batch of intrinsics stdarch#1743
vec_fp_test_data_class s390x: final batch of intrinsics stdarch#1743
vec_gather_element s390x: final batch of intrinsics stdarch#1743
vec_gfmsum s390x: another batch of intrinsics stdarch#1738
vec_gfmsum_accum s390x: another batch of intrinsics stdarch#1738
vec_load_bndry s390x: another batch of intrinsics stdarch#1738
vec_load_len s390x: another batch of intrinsics stdarch#1738
vec_load_len_r s390x: another batch of intrinsics stdarch#1738
vec_load_pair s390x: another batch of intrinsics stdarch#1738
vec_madd s390x: another batch of intrinsics stdarch#1738
vec_max s390x: add vec_sub, vec_mul, vec_min, vec_max, vec_abs and vec_splats stdarch#1704
vec_meadd s390x: final batch of intrinsics stdarch#1743
vec_mergeh s390x: add more intrinsics stdarch#1728
vec_mergel s390x: add more intrinsics stdarch#1728
vec_mhadd s390x: final batch of intrinsics stdarch#1743
vec_min s390x: add vec_sub, vec_mul, vec_min, vec_max, vec_abs and vec_splats stdarch#1704
vec_mladd s390x: final batch of intrinsics stdarch#1743
vec_moadd s390x: final batch of intrinsics stdarch#1743
vec_msub s390x: another batch of intrinsics stdarch#1738
vec_msum_u128 s390x: final batch of intrinsics stdarch#1743
vec_mule s390x: another batch of intrinsics stdarch#1738
vec_mulh s390x: final batch of intrinsics stdarch#1743
vec_mulo s390x: final batch of intrinsics stdarch#1743
vec_nabs s390x: add more intrinsics stdarch#1728
vec_nand S390x vector bitwise operations stdarch#1709
vec_nmadd s390x: another batch of intrinsics stdarch#1738
vec_nmsub s390x: another batch of intrinsics stdarch#1738
vec_nor S390x vector bitwise operations stdarch#1709
vec_or S390x vector bitwise operations stdarch#1709
vec_orc S390x vector bitwise operations stdarch#1709
vec_pack s390x: another batch of intrinsics stdarch#1738
vec_packs s390x: another batch of intrinsics stdarch#1738
vec_packs_cc s390x: another batch of intrinsics stdarch#1738
vec_packsu s390x: another batch of intrinsics stdarch#1738
vec_packsu_cc s390x: another batch of intrinsics stdarch#1738
vec_perm s390x: add more intrinsics stdarch#1728
vec_popcnt S390x vector bitwise operations stdarch#1709
vec_revb s390x: add more intrinsics stdarch#1728
vec_reve s390x: add more intrinsics stdarch#1728
vec_rl s390x: add more intrinsics stdarch#1728
vec_rl_mask s390x: add more intrinsics stdarch#1728
vec_rli s390x: add more intrinsics stdarch#1728
vec_scatter_element s390x: final batch of intrinsics stdarch#1743
vec_search_string_cc s390x: final batch of intrinsics stdarch#1743
vec_search_string_until_zero_cc s390x: final batch of intrinsics stdarch#1743
vec_sel s390x: final batch of intrinsics stdarch#1743
vec_signed s390x: final batch of intrinsics stdarch#1743
vec_slb s390x: add more intrinsics stdarch#1728
vec_sld s390x: final batch of intrinsics stdarch#1743
vec_sldb s390x: final batch of intrinsics stdarch#1743
vec_sldw s390x: final batch of intrinsics stdarch#1743
vec_sll s390x: add more intrinsics stdarch#1728
vec_splat s390x: add more intrinsics stdarch#1728
vec_splats s390x: add vec_sub, vec_mul, vec_min, vec_max, vec_abs and vec_splats stdarch#1704
vec_sqrt s390x: add more intrinsics stdarch#1728
vec_srab s390x: add more intrinsics stdarch#1728
vec_sral s390x: add more intrinsics stdarch#1728
vec_srb s390x: add more intrinsics stdarch#1728
vec_srdb s390x: final batch of intrinsics stdarch#1743
vec_srl s390x: add more intrinsics stdarch#1728
vec_store_len s390x: another batch of intrinsics stdarch#1738
vec_store_len_r s390x: another batch of intrinsics stdarch#1738
vec_sub_u128 s390x: add more intrinsics stdarch#1728
vec_subc_u128 s390x: add more intrinsics stdarch#1728
vec_sube_u128 s390x: add more intrinsics stdarch#1728
vec_subec_u128 s390x: add more intrinsics stdarch#1728
vec_sum2 s390x: add more intrinsics stdarch#1728
vec_sum4 s390x: add more intrinsics stdarch#1728
vec_sum_u128 s390x: add more intrinsics stdarch#1728
vec_test_mask s390x: final batch of intrinsics stdarch#1743
vec_unpackh s390x: another batch of intrinsics stdarch#1738
vec_unpackl s390x: another batch of intrinsics stdarch#1738
vec_unsigned s390x: final batch of intrinsics stdarch#1743
vec_xl s390x: another batch of intrinsics stdarch#1738
vec_xor S390x vector bitwise operations stdarch#1709
vec_xst s390x: another batch of intrinsics stdarch#1738

blocked on #137447

vec_promote add vec_extract, vec_insert, vec_promote and vec_insert_and_zero stdarch#1772
vec_extract add vec_extract, vec_insert, vec_promote and vec_insert_and_zero stdarch#1772
vec_insert add vec_extract, vec_insert, vec_promote and vec_insert_and_zero stdarch#1772
vec_insert_and_zero add vec_extract, vec_insert, vec_promote and vec_insert_and_zero stdarch#1772

from `nnp-assist`, current qemu traps on these

deprecated functions

Steps / History

Implementation: #...
Final comment period (FCP)¹
Stabilization PR

Unresolved Questions

None yet.

@rustbot label O-SystemZ
general s390x vector/intrinsics progress is tracked at #130869
cc @taiki-e

https://std-dev-guide.rust-lang.org/feature-lifecycle/stabilization.html ↩

The text was updated successfully, but these errors were encountered:

uweigand · 2025-05-16T11:56:34Z

The new machines IBM z17 and IBM LinuxONE Emperor 5 were recently announced. These machines implement the arch15 level of the z/Architecture. Support for this has been added to LLVM here: llvm/llvm-project@8424bf2

Support for the new architecture level also comes with a new revision of the vector intrinsics (implemented across GCC, LLVM, and the IBM compilers). It would be good to update the Rust implementation to match.

The new vecintrin.h file can be seen e.g. here: https://github.com/llvm/llvm-project/blob/8424bf207efd89eacf2fe893b67be98d535e1db6/clang/lib/Headers/vecintrin.h This implements the following set of changes compared to the previous version:

Generic cleanup

While reviewing the new changes, we noticed a number of inconsistencies and deficiencies in the existing intrinsics, which were cleaned up as part of the new revision. Specifically:

Added vec_and, vec_or, and vec_xor intrinsics. These are mostly redundant with the &, |, and ^ operators, but can also be used with floating-point vector arguments.

vec_and(__vector __bool char __a, __vector __bool char __b)
vec_and(__vector signed char __a, __vector signed char __b)
vec_and(__vector unsigned char __a, __vector unsigned char __b)
vec_and(__vector __bool short __a, __vector __bool short __b)
vec_and(__vector signed short __a, __vector signed short __b)
vec_and(__vector unsigned short __a, __vector unsigned short __b)
vec_and(__vector __bool int __a, __vector __bool int __b)
vec_and(__vector signed int __a, __vector signed int __b)
vec_and(__vector unsigned int __a, __vector unsigned int __b)
vec_and(__vector __bool long long __a, __vector __bool long long __b)
vec_and(__vector signed long long __a, __vector signed long long __b)
vec_and(__vector unsigned long long __a, __vector unsigned long long __b)
vec_and(__vector float __a, __vector float __b) [only with vector-enhancements-1]
vec_and(__vector double __a, __vector double __b)
vec_or(__vector __bool char __a, __vector __bool char __b)
vec_or(__vector signed char __a, __vector signed char __b)
vec_or(__vector unsigned char __a, __vector unsigned char __b)
vec_or(__vector __bool short __a, __vector __bool short __b)
vec_or(__vector signed short __a, __vector signed short __b)
vec_or(__vector unsigned short __a, __vector unsigned short __b)
vec_or(__vector __bool int __a, __vector __bool int __b)
vec_or(__vector signed int __a, __vector signed int __b)
vec_or(__vector unsigned int __a, __vector unsigned int __b)
vec_or(__vector __bool long long __a, __vector __bool long long __b)
vec_or(__vector signed long long __a, __vector signed long long __b)
vec_or(__vector unsigned long long __a, __vector unsigned long long __b)
vec_or(__vector float __a, __vector float __b) [only with vector-enhancements-1]
vec_or(__vector double __a, __vector double __b)
vec_xor(__vector __bool char __a, __vector __bool char __b)
vec_xor(__vector signed char __a, __vector signed char __b)
vec_xor(__vector unsigned char __a, __vector unsigned char __b)
vec_xor(__vector __bool short __a, __vector __bool short __b)
vec_xor(__vector signed short __a, __vector signed short __b)
vec_xor(__vector unsigned short __a, __vector unsigned short __b)
vec_xor(__vector __bool int __a, __vector __bool int __b)
vec_xor(__vector signed int __a, __vector signed int __b)
vec_xor(__vector unsigned int __a, __vector unsigned int __b)
vec_xor(__vector __bool long long __a, __vector __bool long long __b)
vec_xor(__vector signed long long __a, __vector signed long long __b)
vec_xor(__vector unsigned long long __a, __vector unsigned long long __b)
vec_xor(__vector float __a, __vector float __b) [only with vector-enhancements-1]
vec_xor(__vector double __a, __vector double __b)

The shift count operand for the full-vector shift intrinsics needs to have the count replicated across all 16 bytes according to the ISA. Therefore, the only type that makes sense for this operand is vector unsigned char. Also, the operand to be shifted should not be of any vector bool type since the result may not necessarily be a valid bool vector value. Added the following intrinsics:

vec_slb(__vector signed short __a, __vector unsigned char __b)
vec_slb(__vector unsigned short __a, __vector unsigned char __b)
vec_slb(__vector signed int __a, __vector unsigned char __b)
vec_slb(__vector unsigned int __a, __vector unsigned char __b)
vec_slb(__vector signed long long __a, __vector unsigned char __b)
vec_slb(__vector unsigned long long __a, __vector unsigned char __b)
vec_slb(__vector float __a, __vector unsigned char __b) [only with vector-enhancements-1]
vec_slb(__vector double __a, __vector unsigned char __b)
vec_srb(__vector signed short __a, __vector unsigned char __b)
vec_srb(__vector unsigned short __a, __vector unsigned char __b)
vec_srb(__vector signed int __a, __vector unsigned char __b)
vec_srb(__vector unsigned int __a, __vector unsigned char __b)
vec_srb(__vector signed long long __a, __vector unsigned char __b)
vec_srb(__vector unsigned long long __a, __vector unsigned char __b)
vec_srb(__vector float __a, __vector unsigned char __b) [only with vector-enhancements-1]
vec_srb(__vector double __a, __vector unsigned char __b)
vec_srab(__vector signed short __a, __vector unsigned char __b)
vec_srab(__vector unsigned short __a, __vector unsigned char __b)
vec_srab(__vector signed int __a, __vector unsigned char __b)
vec_srab(__vector unsigned int __a, __vector unsigned char __b)
vec_srab(__vector signed long long __a, __vector unsigned char __b)
vec_srab(__vector unsigned long long __a, __vector unsigned char __b)
vec_srab(__vector float __a, __vector unsigned char __b) [only with vector-enhancements-1]
vec_srab(__vector double __a, __vector unsigned char __b)

and deprecated those intrinsics:

vec_slb(__vector signed char __a, __vector signed char __b)
vec_slb(__vector unsigned char __a, __vector signed char __b)
vec_slb(__vector signed short __a, __vector signed short __b)
vec_slb(__vector signed short __a, __vector unsigned short __b)
vec_slb(__vector unsigned short __a, __vector signed short __b)
vec_slb(__vector unsigned short __a, __vector unsigned short __b)
vec_slb(__vector signed int __a, __vector signed int __b)
vec_slb(__vector signed int __a, __vector unsigned int __b)
vec_slb(__vector unsigned int __a, __vector signed int __b)
vec_slb(__vector unsigned int __a, __vector unsigned int __b)
vec_slb(__vector signed long long __a, __vector signed long long __b)
vec_slb(__vector signed long long __a, __vector unsigned long long __b)
vec_slb(__vector unsigned long long __a, __vector signed long long __b)
vec_slb(__vector unsigned long long __a, __vector unsigned long long __b)
vec_slb(__vector float __a, __vector signed int __b)
vec_slb(__vector float __a, __vector unsigned int __b)
vec_slb(__vector double __a, __vector signed long long __b)
vec_slb(__vector double __a, __vector unsigned long long __b)
vec_srb(__vector signed char __a, __vector signed char __b)
vec_srb(__vector unsigned char __a, __vector signed char __b)
vec_srb(__vector signed short __a, __vector signed short __b)
vec_srb(__vector signed short __a, __vector unsigned short __b)
vec_srb(__vector unsigned short __a, __vector signed short __b)
vec_srb(__vector unsigned short __a, __vector unsigned short __b)
vec_srb(__vector signed int __a, __vector signed int __b)
vec_srb(__vector signed int __a, __vector unsigned int __b)
vec_srb(__vector unsigned int __a, __vector signed int __b)
vec_srb(__vector unsigned int __a, __vector unsigned int __b)
vec_srb(__vector signed long long __a, __vector signed long long __b)
vec_srb(__vector signed long long __a, __vector unsigned long long __b)
vec_srb(__vector unsigned long long __a, __vector signed long long __b)
vec_srb(__vector unsigned long long __a, __vector unsigned long long __b)
vec_srb(__vector float __a, __vector signed int __b)
vec_srb(__vector float __a, __vector unsigned int __b)
vec_srb(__vector double __a, __vector signed long long __b)
vec_srb(__vector double __a, __vector unsigned long long __b)
vec_srab(__vector signed char __a, __vector signed char __b)
vec_srab(__vector unsigned char __a, __vector signed char __b)
vec_srab(__vector signed short __a, __vector signed short __b)
vec_srab(__vector signed short __a, __vector unsigned short __b)
vec_srab(__vector unsigned short __a, __vector signed short __b)
vec_srab(__vector unsigned short __a, __vector unsigned short __b)
vec_srab(__vector signed int __a, __vector signed int __b)
vec_srab(__vector signed int __a, __vector unsigned int __b)
vec_srab(__vector unsigned int __a, __vector signed int __b)
vec_srab(__vector unsigned int __a, __vector unsigned int __b)
vec_srab(__vector signed long long __a, __vector signed long long __b)
vec_srab(__vector signed long long __a, __vector unsigned long long __b)
vec_srab(__vector unsigned long long __a, __vector signed long long __b)
vec_srab(__vector unsigned long long __a, __vector unsigned long long __b)
vec_srab(__vector float __a, __vector signed int __b)
vec_srab(__vector float __a, __vector unsigned int __b)
vec_srab(__vector double __a, __vector signed long long __b)
vec_srab(__vector double __a, __vector unsigned long long __b)
vec_sld(__vector __bool char __a, __vector __bool char __b, int __c)
vec_sld(__vector __bool short __a, __vector __bool short __b, int __c)
vec_sld(__vector __bool int __a, __vector __bool int __b, int __c)
vec_sld(__vector __bool long long __a, __vector __bool long long __b, int __c)

Use the same set of supported operand types for vec_load_len/vec_store_len and vec_load_len_r/vec_store_len_r. Both now support only vector signed char and vector unsigned char. Added intrinsics:

vec_load_len_r(const signed char *__ptr, unsigned int __len)
vec_store_len_r(__vector signed char __vec, signed char *__ptr, unsigned int __len)

and deprecated the existing intrinsics:

vec_load_len(const signed short *__ptr, unsigned int __len)
vec_load_len(const unsigned short *__ptr, unsigned int __len)
vec_load_len(const signed int *__ptr, unsigned int __len)
vec_load_len(const unsigned int *__ptr, unsigned int __len)
vec_load_len(const signed long long *__ptr, unsigned int __len)
vec_load_len(const unsigned long long *__ptr, unsigned int __len)
vec_load_len(const float *__ptr, unsigned int __len)
vec_load_len(const double *__ptr, unsigned int __len)
vec_store_len(__vector signed short __vec, signed short *__ptr, unsigned int __len)
vec_store_len(__vector unsigned short __vec, unsigned short *__ptr, unsigned int __len)
vec_store_len(__vector signed int __vec, signed int *__ptr, unsigned int __len)
vec_store_len(__vector unsigned int __vec, unsigned int *__ptr, unsigned int __len)
vec_store_len(__vector signed long long __vec, signed long long *__ptr, unsigned int __len)
vec_store_len(__vector unsigned long long __vec, unsigned long long *__ptr, unsigned int __len)
vec_store_len(__vector float __vec, float *__ptr, unsigned int __len)
vec_store_len(__vector double __vec, double *__ptr, unsigned int __len)

Support for 128-bit integer vector types

One main feature of the arch15 ISA is support for a full set of arithmetical operations on 128-bit integer values held in vector registers. This is used to a large extent implicitly by the code-generator back end. However, there are also a number of operations that required intrinsics to fully exploit. We decided to add the following new vector types to be used with those intrinsics:

vector signed __int128
vector unsigned __int128
vector bool __int128

Note that since the vector length is only 128 bits, these vector types only contain a single element. They are still useful as they use a different ABI (passed in vector registers and not in memory), and it seems cleaner to consistently use "vector" types with the vector intrinsics.

Note that many operations on these types can actually be performed with prior versions of the ISA, so the types have been made available unconditionally. Many existing intrinsics have been extended to support the new types:

vec_perm(__vector signed __int128 __a, __vector signed __int128 __b, __vector unsigned char __c)
vec_perm(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned char __c)
vec_perm(__vector __bool __int128 __a, __vector __bool __int128 __b, __vector unsigned char __c)
vec_revb(__vector signed __int128 __vec)
vec_revb(__vector unsigned __int128 __vec)
vec_sel(__vector signed __int128 __a, __vector signed __int128 __b, __vector unsigned __int128 __c)
vec_sel(__vector signed __int128 __a, __vector signed __int128 __b, __vector __bool __int128 __c)
vec_sel(__vector __bool __int128 __a, __vector __bool __int128 __b, __vector unsigned __int128 __c)
vec_sel(__vector __bool __int128 __a, __vector __bool __int128 __b, __vector __bool __int128 __c)
vec_sel(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_sel(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector __bool __int128 __c)
vec_xl(long __offset, const signed __int128 *__ptr)
vec_xl(long __offset, const unsigned __int128 *__ptr)
vec_xst(__vector signed __int128 __vec, long __offset,
vec_xst(__vector unsigned __int128 __vec, long __offset,
vec_load_bndry(const signed __int128 *__ptr, unsigned short __len)
vec_load_bndry(const unsigned __int128 *__ptr, unsigned short __len)
vec_splats(signed __int128 __scalar)
vec_splats(unsigned __int128 __scalar)
vec_pack(__vector signed __int128 __a, __vector signed __int128 __b)
vec_pack(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_pack(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_cmpeq(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_cmpeq(__vector signed __int128 __a, __vector signed __int128 __b)
vec_cmpeq(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_cmpge(__vector signed __int128 __a, __vector signed __int128 __b)
vec_cmpge(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_cmpgt(__vector signed __int128 __a, __vector signed __int128 __b)
vec_cmpgt(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_cmple(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_cmplt(__vector signed __int128 __a, __vector signed __int128 __b)
vec_and(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_and(__vector signed __int128 __a, __vector signed __int128 __b)
vec_and(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_or(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_or(__vector signed __int128 __a, __vector signed __int128 __b)
vec_or(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_xor(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_xor(__vector signed __int128 __a, __vector signed __int128 __b)
vec_xor(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_andc(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_andc(__vector signed __int128 __a, __vector signed __int128 __b)
vec_andc(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_nor(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_nor(__vector signed __int128 __a, __vector signed __int128 __b)
vec_nor(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_orc(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_orc(__vector signed __int128 __a, __vector signed __int128 __b)
vec_orc(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_nand(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_nand(__vector signed __int128 __a, __vector signed __int128 __b)
vec_nand(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_eqv(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_eqv(__vector signed __int128 __a, __vector signed __int128 __b)
vec_eqv(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_sll(__vector signed __int128 __a, __vector unsigned char __b)
vec_sll(__vector unsigned __int128 __a, __vector unsigned char __b)
vec_slb(__vector signed __int128 __a, __vector unsigned char __b)
vec_slb(__vector unsigned __int128 __a, __vector unsigned char __b)
vec_sld(__vector signed __int128 __a, __vector signed __int128 __b, int __c)
vec_sld(__vector unsigned __int128 __a, __vector unsigned __int128 __b, int __c)
vec_sldw(__vector signed __int128 __a, __vector signed __int128 __b, int __c)
vec_sldw(__vector unsigned __int128 __a, __vector unsigned __int128 __b,
vec_sldb(__vector signed __int128 __a, __vector signed __int128 __b, int __c)
vec_sldb(__vector unsigned __int128 __a, __vector unsigned __int128 __b,
vec_sral(__vector signed __int128 __a, __vector unsigned char __b)
vec_sral(__vector unsigned __int128 __a, __vector unsigned char __b)
vec_srab(__vector signed __int128 __a, __vector unsigned char __b)
vec_srab(__vector unsigned __int128 __a, __vector unsigned char __b)
vec_srl(__vector signed __int128 __a, __vector unsigned char __b)
vec_srl(__vector unsigned __int128 __a, __vector unsigned char __b)
vec_srb(__vector signed __int128 __a, __vector unsigned char __b)
vec_srb(__vector unsigned __int128 __a, __vector unsigned char __b)
vec_srdb(__vector signed __int128 __a, __vector signed __int128 __b, int __c)
vec_srdb(__vector unsigned __int128 __a, __vector unsigned __int128 __b, int __c)
vec_abs(__vector signed __int128 __a)
vec_max(__vector signed __int128 __a, __vector signed __int128 __b)
vec_max(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_min(__vector signed __int128 __a, __vector signed __int128 __b)
vec_min(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_test_mask(__vector signed __int128 __a, __vector unsigned __int128 __b)
vec_test_mask(__vector unsigned __int128 __a, __vector unsigned __int128 __b)

Some other intrinsics also now support the new types, but only when the vector-enhancements-3 feature is present:

vec_unpackh(__vector signed long long __a)
vec_unpackh(__vector __bool long long __a)
vec_unpackh(__vector unsigned long long __a)
vec_unpackl(__vector signed long long __a)
vec_unpackl(__vector __bool long long __a)
vec_unpackl(__vector unsigned long long __a)
vec_all_eq(__vector signed __int128 __a, __vector signed __int128 __b)
vec_all_eq(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_all_eq(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_all_ne(__vector signed __int128 __a, __vector signed __int128 __b)
vec_all_ne(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_all_ne(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_all_ge(__vector signed __int128 __a, __vector signed __int128 __b)
vec_all_ge(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_all_gt(__vector signed __int128 __a, __vector signed __int128 __b)
vec_all_gt(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_all_le(__vector signed __int128 __a, __vector signed __int128 __b)
vec_all_le(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_all_lt(__vector signed __int128 __a, __vector signed __int128 __b)
vec_all_lt(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_any_eq(__vector signed __int128 __a, __vector signed __int128 __b)
vec_any_eq(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_any_eq(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_any_ne(__vector signed __int128 __a, __vector signed __int128 __b)
vec_any_ne(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_any_ne(__vector __bool __int128 __a, __vector __bool __int128 __b)
vec_any_ge(__vector signed __int128 __a, __vector signed __int128 __b)
vec_any_ge(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_any_gt(__vector signed __int128 __a, __vector signed __int128 __b)
vec_any_gt(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_any_le(__vector signed __int128 __a, __vector signed __int128 __b)
vec_any_le(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_any_lt(__vector signed __int128 __a, __vector signed __int128 __b)
vec_any_lt(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_cntlz(__vector signed __int128 __a)
vec_cntlz(__vector unsigned __int128 __a)
vec_cnttz(__vector signed __int128 __a)
vec_cnttz(__vector unsigned __int128 __a)
vec_avg(__vector signed __int128 __a, __vector signed __int128 __b)
vec_avg(__vector unsigned __int128 __a, __vector unsigned __int128 __b)

Finally, a number of existing intrinsics already operated on 128-bit integer types, but used vector unsigned char to represent those values in the absence of a better type. These have now all been deprecated:

vec_bperm_u128(__vector unsigned char __a, __vector unsigned char __b)
vec_add_u128(__vector unsigned char __a, __vector unsigned char __b)
vec_addc_u128(__vector unsigned char __a, __vector unsigned char __b)
vec_adde_u128(__vector unsigned char __a, __vector unsigned char __b, __vector unsigned char __c)
vec_addec_u128(__vector unsigned char __a, __vector unsigned char __b, __vector unsigned char __c)
vec_sub_u128(__vector unsigned char __a, __vector unsigned char __b)
vec_subc_u128(__vector unsigned char __a, __vector unsigned char __b)
vec_sube_u128(__vector unsigned char __a, __vector unsigned char __b, __vector unsigned char __c)
vec_subec_u128(__vector unsigned char __a, __vector unsigned char __b, __vector unsigned char __c)
vec_sum_u128(__vector unsigned int __a, __vector unsigned int __b)
vec_sum_u128(__vector unsigned long long __a, __vector unsigned long long __b)
vec_msum_u128(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned char __c, int __d)
vec_gfmsum_128(__vector unsigned long long __a, __vector unsigned long long __b)
vec_gfmsum_accum_128(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned char __c)

and replaced by the following new intrinsics:

vec_bperm(__vector unsigned __int128 __a, __vector unsigned char __b)
vec_adde(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_addec(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_sube(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_subec(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_sum(__vector unsigned int __a, __vector unsigned int __b)
vec_sum(__vector unsigned long long __a, __vector unsigned long long __b)
vec_msum(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned __int128 __c, int __d)

and new overloads of existing intrinsics:

vec_addc(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_subc(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_gfmsum(__vector unsigned long long __a, __vector unsigned long long __b)
vec_gfmsum_accum(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned __int128 __c)

Other new ISA capabilities

In addition to the above, the new ISA provides an extended set of new multiplication operations on 64-bit and 128-bit
integers, including 64->128 and 128->256 widening multiply. These have been added as new overloads to the following intrinsics (only available with vector-enhancements-3):

vec_mladd(__vector signed long long __a, __vector signed long long __b, __vector signed long long __c)
vec_mladd(__vector unsigned long long __a, __vector signed long long __b, __vector signed long long __c)
vec_mladd(__vector signed long long __a, __vector unsigned long long __b, __vector unsigned long long __c)
vec_mladd(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned long long __c)
vec_mladd(__vector signed __int128 __a, __vector signed __int128 __b, __vector signed __int128 __c)
vec_mladd(__vector unsigned __int128 __a, __vector signed __int128 __b, __vector signed __int128 __c)
vec_mladd(__vector signed __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_mladd(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_mhadd(__vector signed long long __a, __vector signed long long __b, __vector signed long long __c)
vec_mhadd(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned long long __c)
vec_mhadd(__vector signed __int128 __a, __vector signed __int128 __b, __vector signed __int128 __c)
vec_mhadd(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c)
vec_meadd(__vector signed long long __a, __vector signed long long __b, __vector signed __int128 __c)
vec_meadd(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned __int128 __c)
vec_moadd(__vector signed long long __a, __vector signed long long __b, __vector signed __int128 __c)
vec_moadd(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned __int128 __c)
vec_mulh(__vector signed long long __a, __vector signed long long __b)
vec_mulh(__vector unsigned long long __a, __vector unsigned long long __b)
vec_mulh(__vector signed __int128 __a, __vector signed __int128 __b)
vec_mulh(__vector unsigned __int128 __a, __vector unsigned __int128 __b)
vec_mule(__vector signed long long __a, __vector signed long long __b)
vec_mule(__vector unsigned long long __a, __vector unsigned long long __b)
vec_mulo(__vector signed long long __a, __vector signed long long __b)
vec_mulo(__vector unsigned long long __a, __vector unsigned long long __b)

Finally, there are a few completely new intrinsics to support new operations (with vector-enhancements-3):

vec_gen_element_masks_8(__vector unsigned short __mask)
vec_gen_element_masks_16(__vector unsigned char __mask)
vec_gen_element_masks_32(__vector unsigned char __mask)
vec_gen_element_masks_64(__vector unsigned char __mask)
vec_gen_element_masks_128(__vector unsigned char __mask)
vec_blend(__vector signed char __a, __vector signed char __b, __vector signed char __c)
vec_blend(__vector __bool char __a, __vector __bool char __b, __vector signed char __c)
vec_blend(__vector unsigned char __a, __vector unsigned char __b, __vector signed char __c)
vec_blend(__vector signed short __a, __vector signed short __b, __vector signed short __c)
vec_blend(__vector __bool short __a, __vector __bool short __b, __vector signed short __c)
vec_blend(__vector unsigned short __a, __vector unsigned short __b, __vector signed short __c)
vec_blend(__vector signed int __a, __vector signed int __b, __vector signed int __c)
vec_blend(__vector __bool int __a, __vector __bool int __b, __vector signed int __c)
vec_blend(__vector unsigned int __a, __vector unsigned int __b, __vector signed int __c)
vec_blend(__vector signed long long __a, __vector signed long long __b, __vector signed long long __c)
vec_blend(__vector __bool long long __a, __vector __bool long long __b, __vector signed long long __c)
vec_blend(__vector unsigned long long __a, __vector unsigned long long __b, __vector signed long long __c)
vec_blend(__vector signed __int128 __a, __vector signed __int128 __b, __vector signed __int128 __c)
vec_blend(__vector __bool __int128 __a, __vector __bool __int128 __b, __vector signed __int128 __c)
vec_blend(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector signed __int128 __c)
vec_blend(__vector float __a, __vector float __b, __vector signed int __c)
vec_blend(__vector double __a, __vector double __b, __vector signed long long __c)
vec_evaluate(__vector signed char __a, __vector signed char __b, __vector signed char __c, unsigned char __d)
vec_evaluate(__vector unsigned char __a, __vector unsigned char __b, __vector unsigned char __c, unsigned char __d)
vec_evaluate(__vector __bool char __a, __vector __bool char __b, __vector __bool char __c, unsigned char __d)
vec_evaluate(__vector signed short __a, __vector signed short __b, __vector signed short __c, unsigned char __d)
vec_evaluate(__vector unsigned short __a, __vector unsigned short __b, __vector unsigned short __c, unsigned char __d)
vec_evaluate(__vector __bool short __a, __vector __bool short __b, __vector __bool short __c, unsigned char __d)
vec_evaluate(__vector signed int __a, __vector signed int __b, __vector signed int __c, unsigned char __d)
vec_evaluate(__vector unsigned int __a, __vector unsigned int __b, __vector unsigned int __c, unsigned char __d)
vec_evaluate(__vector __bool int __a, __vector __bool int __b, __vector __bool int __c, unsigned char __d)
vec_evaluate(__vector signed long long __a, __vector signed long long __b, __vector signed long long __c, unsigned char __d)
vec_evaluate(__vector unsigned long long __a, __vector unsigned long long __b, __vector unsigned long long __c, unsigned char __d)
vec_evaluate(__vector __bool long long __a, __vector __bool long long __b, __vector __bool long long __c, unsigned char __d)
vec_evaluate(__vector signed __int128 __a, __vector signed __int128 __b, __vector signed __int128 __c, unsigned char __d)
vec_evaluate(__vector unsigned __int128 __a, __vector unsigned __int128 __b, __vector unsigned __int128 __c, unsigned char __d)
vec_evaluate(__vector __bool __int128 __a, __vector __bool __int128 __b, __vector __bool __int128 __c, unsigned char __d)

FYI @folkertdev @taiki-e @cuviper @fneddy

folkertdev added C-tracking-issue Category: An issue tracking the progress of sth. like the implementation of an RFC T-libs-api Relevant to the library API team, which will review and decide on the PR/issue. labels Jan 18, 2025

rustbot added the O-SystemZ Target: SystemZ processors (s390x) label Jan 18, 2025

taiki-e mentioned this issue Jan 18, 2025

s390x vector facilities support #130869

Open

11 tasks

This was referenced Jan 18, 2025

add vec_add for s390x rust-lang/stdarch#1703

Merged

s390x: add vec_sub, vec_mul, vec_min, vec_max, vec_abs and vec_splats rust-lang/stdarch#1704

Merged

This was referenced Feb 8, 2025

S390x vector bitwise operations rust-lang/stdarch#1709

Merged

S390x float rounding rust-lang/stdarch#1712

Merged

This was referenced Feb 25, 2025

s390x: add more intrinsics rust-lang/stdarch#1728

Merged

s390x: another batch of intrinsics rust-lang/stdarch#1738

Merged

folkertdev mentioned this issue Mar 16, 2025

s390x: final batch of intrinsics rust-lang/stdarch#1743

Merged

folkertdev mentioned this issue Apr 12, 2025

add vec_extract, vec_insert, vec_promote and vec_insert_and_zero rust-lang/stdarch#1772

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Tracking Issue for `stdarch_s390x` #135681

Tracking Issue for `stdarch_s390x` #135681

folkertdev commented Jan 18, 2025 •

edited

Loading

uweigand commented May 16, 2025

Tracking Issue for stdarch_s390x #135681

Tracking Issue for stdarch_s390x #135681

Comments

folkertdev commented Jan 18, 2025 • edited Loading

Public API

blocked on #137447

from nnp-assist, current qemu traps on these

deprecated functions

Steps / History

Unresolved Questions

Footnotes

uweigand commented May 16, 2025

Generic cleanup

Support for 128-bit integer vector types

Other new ISA capabilities

Tracking Issue for `stdarch_s390x` #135681

Tracking Issue for `stdarch_s390x` #135681

folkertdev commented Jan 18, 2025 •

edited

Loading

from `nnp-assist`, current qemu traps on these