StarRocks · wanpengfei-git · Nov 11, 2022 · Nov 7, 2022 · Nov 7, 2022 · Nov 8, 2022
diff --git a/be/src/serde/column_array_serde.cpp b/be/src/serde/column_array_serde.cpp
@@ -59,15 +59,19 @@ const uint8_t* read_raw(const uint8_t* buff, void* target, size_t size) {
     return buff + size;
 }
 
+inline size_t upper_int32(size_t size) {
+    return (3 + size) / 4.0;
+}
+
 template <bool sorted_32ints>
 uint8_t* encode_integers(const void* data, size_t size, uint8_t* buff, int encode_level) {
     uint64_t encode_size = 0;
     if (sorted_32ints) { // only support sorted 32-bit integers
-        encode_size = streamvbyte_delta_encode(reinterpret_cast<const uint32_t*>(data), (3 + size) * 1.0 / 4.0,
+        encode_size = streamvbyte_delta_encode(reinterpret_cast<const uint32_t*>(data), upper_int32(size),
                                                buff + sizeof(uint64_t), 0);
     } else {
-        encode_size = streamvbyte_encode(reinterpret_cast<const uint32_t*>(data), (3 + size) * 1.0 / 4.0,
-                                         buff + sizeof(uint64_t));
+        encode_size =
+                streamvbyte_encode(reinterpret_cast<const uint32_t*>(data), upper_int32(size), buff + sizeof(uint64_t));
     }
     buff = write_little_endian_64(encode_size, buff);
 
@@ -82,9 +86,9 @@ const uint8_t* decode_integers(const uint8_t* buff, void* target, size_t size) {
     buff = read_little_endian_64(buff, &encode_size);
     uint64_t decode_size = 0;
     if (sorted_32ints) {
-        decode_size = streamvbyte_delta_decode(buff, (uint32_t*)target, (3 + size) * 1.0 / 4.0, 0);
+        decode_size = streamvbyte_delta_decode(buff, (uint32_t*)target, upper_int32(size), 0);
     } else {
-        decode_size = streamvbyte_decode(buff, (uint32_t*)target, (3 + size) * 1.0 / 4.0);
+        decode_size = streamvbyte_decode(buff, (uint32_t*)target, upper_int32(size));
     }
     if (encode_size != decode_size) {
         throw std::runtime_error(fmt::format(
@@ -133,7 +137,7 @@ class FixedLengthColumnSerde {
         uint32_t size = sizeof(T) * column.size();
         if ((encode_level & 2) && size >= ENCODE_SIZE_LIMIT) {
             return sizeof(uint32_t) + sizeof(uint64_t) +
-                   std::max((int64_t)size, (int64_t)streamvbyte_max_compressedbytes((size + 3) / 4.0));
+                   std::max((int64_t)size, (int64_t)streamvbyte_max_compressedbytes(upper_int32(size)));
         } else {
             return sizeof(uint32_t) + size;
         }
@@ -160,14 +164,15 @@ class FixedLengthColumnSerde {
         uint32_t size = 0;
         buff = read_little_endian_32(buff, &size);
         std::vector<T>& data = column->get_data();
-        raw::make_room(&data, size / sizeof(T));
         if ((encode_level & 2) && size >= ENCODE_SIZE_LIMIT) {
+            raw::make_room_pad16(&data, size / sizeof(T));
             if (sizeof(T) == 4 && sorted) { // only support sorted 32-bit integers
                 buff = decode_integers<true>(buff, data.data(), size);
             } else {
                 buff = decode_integers<false>(buff, data.data(), size);
             }
         } else {
+            raw::make_room(&data, size / sizeof(T));
             buff = read_raw(buff, data.data(), size);
         }
         return buff;
@@ -184,7 +189,7 @@ class BinaryColumnSerde {
         int64_t offsets_size = offsets.size() * sizeof(typename vectorized::BinaryColumnBase<T>::Offset);
         if ((encode_level & 2) && offsets_size >= ENCODE_SIZE_LIMIT) {
             res += sizeof(uint64_t) +
-                   std::max((int64_t)offsets_size, (int64_t)streamvbyte_max_compressedbytes((offsets_size + 3) / 4.0));
+                   std::max((int64_t)offsets_size, (int64_t)streamvbyte_max_compressedbytes(upper_int32(offsets_size)));
         } else {
             res += offsets_size;
         }
@@ -254,14 +259,17 @@ class BinaryColumnSerde {
         } else {
             buff = read_little_endian_64(buff, &offsets_size);
         }
-        raw::make_room(&column->get_offset(), offsets_size / sizeof(typename vectorized::BinaryColumnBase<T>::Offset));
         if ((encode_level & 2) && offsets_size >= ENCODE_SIZE_LIMIT) {
+            raw::make_room_pad16(&column->get_offset(),
+                                 offsets_size / sizeof(typename vectorized::BinaryColumnBase<T>::Offset));
             if (sizeof(T) == 4) { // only support sorted 32-bit integers
                 buff = decode_integers<true>(buff, column->get_offset().data(), offsets_size);
             } else {
                 buff = decode_integers<false>(buff, column->get_offset().data(), offsets_size);
             }
         } else {
+            raw::make_room(&column->get_offset(),
+                           offsets_size / sizeof(typename vectorized::BinaryColumnBase<T>::Offset));
             buff = read_raw(buff, column->get_offset().data(), offsets_size);
         }
         return buff;

@@ -154,6 +154,13 @@ inline void make_room(std::vector<T>* v, size_t n) {
     v->swap(reinterpret_cast<std::vector<T>&>(rv));
 }
 
+template <class T>
+inline void make_room_pad16(std::vector<T>* v, size_t n) {
+    RawVectorPad16<T> rv;
+    rv.resize(n);
+    v->swap(reinterpret_cast<std::vector<T>&>(rv));
+}
+
 inline void make_room(std::string* s, size_t n) {
     RawStringPad16 rs;
     rs.resize(n);